[發(fā)明專利]基于政策規(guī)劃約束Q學習的動態(tài)頻譜接入方法無效
| 申請?zhí)枺?/td> | 200910029116.7 | 申請日: | 2009-01-13 |
| 公開(公告)號: | CN101466111A | 公開(公告)日: | 2009-06-24 |
| 發(fā)明(設(shè)計)人: | 王金龍;吳啟暉;劉瓊俐;丁茜;張玉明 | 申請(專利權(quán))人: | 中國人民解放軍理工大學通信工程學院 |
| 主分類號: | H04W24/00 | 分類號: | H04W24/00;H04B17/00 |
| 代理公司: | 南京天華專利代理有限責任公司 | 代理人: | 夏 平 |
| 地址: | 210016*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 政策 規(guī)劃 約束 學習 動態(tài) 頻譜 接入 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種認知無線電領(lǐng)域,具體說是一種動態(tài)頻譜接入方法。
背景技術(shù)
認知無線電(cognitive?radio,簡稱CR)是一種新的提高頻譜利用率的技術(shù),它可以將一些區(qū)域中暫時沒有被授權(quán)用戶(licensed?users,簡稱LU)使用的頻段借給未授權(quán)用戶(也稱作認知用戶cognitive?user,簡稱CU)使用來提高頻譜利用率。認知無線電是一個智能的無線通信系統(tǒng),它能夠通過對無線電環(huán)境的學習,相應(yīng)地動態(tài)調(diào)整其傳輸參數(shù)。
近年來,認知無線電動態(tài)頻譜接入技術(shù)成為一個熱門的問題,受到廣泛的關(guān)注。研究人員針對動態(tài)頻譜接入在頻譜利用率、沖突概率、頻譜利用公平性等方面進行了大量研究,但這些算法均未涉及頻譜接入的自主性問題,這一點對于認知無線電所要面對的復(fù)雜系統(tǒng)來說是很重要的。考慮到業(yè)務(wù)需求在空間和時間上的動態(tài)變化及其不規(guī)則性,一個設(shè)計好的不具備學習能力的動態(tài)頻譜接入算法一般對環(huán)境有很多要求、很難具有普適性。為實現(xiàn)對頻譜資源的分布式自主接入以減少人力參與,需要網(wǎng)絡(luò)和用戶具有能根據(jù)實際運行情況不斷修正其接入策略的自主學習能力。具備不需人為干預(yù)的熟練的決策能力的認知無線電是目前研究的主要技術(shù)基礎(chǔ),未來頻譜接入應(yīng)當是自主的、動態(tài)的、自適應(yīng)的。
學習能力是認知無線電一個重要的特征,學習是人類獲取知識的主要形式,是基本的認知活動,是經(jīng)驗與知識的積累過程,也是人類具有智能、提高智能水平的基本途徑。用戶具有智能,在無人干預(yù)的情況下,自主接入未知的環(huán)境、自主完成通信任務(wù)已經(jīng)成為通信技術(shù)發(fā)展和在各領(lǐng)域廣泛應(yīng)用的迫切需求。使agent(智能用戶)能從環(huán)境中學習,即自動獲取知識、積累經(jīng)驗、不斷更新和擴展知識,具有自學習、自適應(yīng)能力將會成為一個研究的熱點。
強化學習是一種具有自學習能力的“試錯”的在線學習技術(shù),學習者通過與環(huán)境不斷交互獲得學習經(jīng)驗,進而逐步改進其動作策略。強化學習以其靈活性和自適應(yīng)性,廣泛應(yīng)用于機器人和自動控制領(lǐng)域,并被引入無線蜂窩網(wǎng)絡(luò)的動態(tài)信道分配以及傳感器網(wǎng)絡(luò)中的可重配置問題中。強化學習由于不需環(huán)境任何信息就可以進行,已被證明能充分利用與環(huán)境交互中所得到的信息,能動態(tài)適應(yīng)環(huán)境變化。將強化學習算法引入到動態(tài)頻譜接入中,不需對環(huán)境建立復(fù)雜的數(shù)學模型就可以實現(xiàn)認知引擎對頻譜的選擇以達到避免干擾授權(quán)用戶的目標,是一種不錯的選擇。
由于強化學習是一種無監(jiān)督的機器學習技術(shù),能夠利用不確定的環(huán)境獎賞發(fā)現(xiàn)最優(yōu)的動作序列,實現(xiàn)動態(tài)環(huán)境下的在線學習,因此被廣泛用于agent的智能決策,取得了顯著的成果。但在對認知無線網(wǎng)絡(luò)和其應(yīng)用環(huán)境進行建模時出現(xiàn)了一些問題,首先,隨著網(wǎng)絡(luò)中用戶(agent)數(shù)量的增多,每個用戶的狀態(tài)空間呈指數(shù)增加,即便是最簡單的問題的學習也變得異常困難;其次,認知無線網(wǎng)絡(luò)本身的復(fù)雜性和環(huán)境的快變特性也使得傳統(tǒng)的Q學習在學習速度上不能勝任;最后,Q學習算法必須通過反復(fù)實驗的方法來學習,算法效率不高,而且在未知環(huán)境中的盲目學習會冒一定的風險。
發(fā)明內(nèi)容
本發(fā)明的目的就是為了解決上述問題,提出一種能提高系統(tǒng)整體性能并可克服智能體學習的盲目性、提高學習效率、加快收斂速度的基于政策規(guī)劃約束算法的動態(tài)頻譜接入方法。
本發(fā)明是采用以下技術(shù)方案實現(xiàn)的:
一種基于政策規(guī)劃約束Q學習的動態(tài)頻譜接入方法,其特征在于,首先認知用戶在政策規(guī)劃約束下,利用感知到的環(huán)境信息和專家經(jīng)驗,用模糊綜合決策方法得到Q學習的先驗知識,接著包括下列步驟:
步驟1,認知用戶感知環(huán)境狀態(tài),并在包含政策規(guī)劃和數(shù)據(jù)的知識庫的指導下對頻譜狀態(tài)空間進行劃分,選出合理和合法的狀態(tài)空間,剔除政策規(guī)劃不允許認知用戶使用的狀態(tài)空間;
步驟2,根據(jù)政策規(guī)劃的指導,依據(jù)環(huán)境先驗知識對步驟1得出的合理和合法的狀態(tài)空間的進行分等級模塊化;
步驟3,對每個等級模塊,依據(jù)Q學習的先驗知識,使用模糊綜合決策,完成Q學習前的Q表初始化工作,并將得出的Q值存入Q值表征模塊;
步驟4,初始化其他工作參數(shù),每個模塊開始單獨的進行Q學習算法,根據(jù)學習規(guī)則結(jié)合動作選擇算法,綜合考慮所有學習模塊進行決策,得出認知用戶最終要采取的動作,選擇頻譜進行接入;
步驟5,判斷選擇接入的頻譜是否和授權(quán)用戶沖突,根據(jù)判斷設(shè)置回報值,若發(fā)生沖突則計算沖突概率,否則進入步驟6;
步驟6,判斷環(huán)境的政策、規(guī)劃和數(shù)據(jù)是否發(fā)生改變,如果發(fā)生改變,更新環(huán)境政策規(guī)劃知識庫,并根據(jù)政策、規(guī)劃和數(shù)據(jù)的改變調(diào)整學習的Q值;
步驟7,重復(fù)步驟4~6,直到學習收斂。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國人民解放軍理工大學通信工程學院,未經(jīng)中國人民解放軍理工大學通信工程學院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910029116.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





