[發明專利]基于政策規劃約束Q學習的動態頻譜接入方法無效
| 申請號: | 200910029116.7 | 申請日: | 2009-01-13 |
| 公開(公告)號: | CN101466111A | 公開(公告)日: | 2009-06-24 |
| 發明(設計)人: | 王金龍;吳啟暉;劉瓊俐;丁茜;張玉明 | 申請(專利權)人: | 中國人民解放軍理工大學通信工程學院 |
| 主分類號: | H04W24/00 | 分類號: | H04W24/00;H04B17/00 |
| 代理公司: | 南京天華專利代理有限責任公司 | 代理人: | 夏 平 |
| 地址: | 210016*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 政策 規劃 約束 學習 動態 頻譜 接入 方法 | ||
1.一種基于政策規劃約束Q學習的動態頻譜接入方法,其特征在于,首先認知用戶在政策規劃約束下,利用感知到的環境信息和專家經驗,用模糊綜合決策方法得到Q學習的先驗知識,接著包括下列步驟:
步驟1,認知用戶感知環境狀態,并在包含政策規劃和數據的知識庫的指導下對頻譜狀態空間進行劃分,選出合理和合法的狀態空間,剔除政策規劃不允許認知用戶使用的狀態空間;
步驟2,根據政策規劃的指導,依據環境先驗知識對步驟1得出的合理和合法的狀態空間進行分等級模塊化;
步驟3,對每個等級模塊,依據Q學習的先驗知識,使用模糊綜合決策,完成Q學習前的Q表初始化工作,并將得出的Q值存入Q值表征模塊;
步驟4,初始化其他工作參數,每個模塊開始單獨的進行Q學習算法,根據學習規則結合動作選擇算法,綜合考慮所有學習模塊進行決策,得出認知用戶最終要采取的動作,選擇頻譜進行接入;
步驟5,判斷選擇接入的頻譜是否和授權用戶沖突,根據判斷設置回報值,若發生沖突則計算沖突概率,否則進入步驟6;
步驟6,判斷環境的政策、規劃和數據是否發生改變,如果發生改變,更新環境政策規劃知識庫,并根據政策、規劃和數據的改變調整學習的Q值;
步驟7,重復步驟4~6,直到學習收斂。
2.根據權利要求1所述的一種基于政策規劃約束Q學習的動態頻譜接入方法,其特征在于,先驗知識是已知的優化算法,或是學習系統以前的學習經驗,存儲在知識庫中,可以隨著學習過程更新。
3.根據權利要求1所述的一種基于政策規劃約束Q學習的動態頻譜接入方法,其特征在于,所述步驟3中使用模糊綜合決策實現Q值初始化的具體步驟如下:
1)、設定因素集U=(u1,u2,…,un)和決策集V=(v1,v2,…,vm),n表示所有影響決策的因素個數,m表示決策集中所有決策的個數,因素集是影響決策的各個因素的集合,設計時應包括所有主要因素,決策集是決策者可能做出的所有決策的集合;
2)、設計單因素決斷f:U→F(v),建立從U到V的模糊映射,構造模糊評價矩陣Rf,如下式所示,Rf可由模糊矩陣Mm×n表示,Rf的元素rij是指因素ui對于決策vj的評價,i,j是Rf矩陣中元素下標,i為{1,2,…,n},j為{1,2,…,m},模糊評價矩陣參照專家經驗設定,設計成常數矩陣或函數矩陣;
3)、設定因素權重集W=(w1,w2,…,wn),權重集W反映各個因素影響決策的程度,由決策者根據經驗直接給出,或用某種隸屬度方法求得;
4)、根據因素集U、決策集V和模糊評價矩陣Rf,通過權重集W,進行模糊運算,得到綜合決斷B=W⊙Rf,決斷向量B的元素,反映了各個決策按照全體目標綜合衡量的優越程度,以向量B為依據便可按照最大隸屬度的原則選出最優方案或者排列各個方案的優先次序,作為采取不同決策的一個參考;
5)、利用“歸一”方法將模糊綜合決策的結論轉化為Q學習的先驗知識,對Q值進行初始化,計算各等級模塊下所有Q值,
????????????????Q*(s,a)=arg?max∑iQ(s,a)
其中,i為等級模塊的數目,Q*(s,a)表示i個等級模塊下a動作的總體回報估計的最大值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍理工大學通信工程學院,未經中國人民解放軍理工大學通信工程學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910029116.7/1.html,轉載請聲明來源鉆瓜專利網。





