[發明專利]基于Q-learning的RFID多閱讀器防碰撞算法在審
| 申請號: | 201810407758.5 | 申請日: | 2018-04-26 |
| 公開(公告)號: | CN108647542A | 公開(公告)日: | 2018-10-12 |
| 發明(設計)人: | 鄭嘉利;袁源 | 申請(專利權)人: | 廣西大學 |
| 主分類號: | G06K7/10 | 分類號: | G06K7/10 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 530004 廣西壯族*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 閱讀器 防碰撞算法 馬爾可夫模型 無線射頻識別 標簽識別 迭代學習 定義狀態 動作空間 更新參數 算法過程 信道資源 資源分配 最佳信道 防碰撞 遞歸 迭代 算法 學習 分配 更新 | ||
1.一種適用于RFID系統的基于Q-learning的閱讀器防碰撞算法,約定閱讀器個數為N,系統可用信道資源數為R,學習次數為T,折扣系數為γ,學習效率α,其特征在于,該算法步驟還包括:
步驟1)初始化:根據RFID網絡中閱讀器和信道資源的個數,初始化狀態空間S和動作空間A,初始化Q表中所有的Q(s,a)=0,其中s∈S,a∈A;
步驟2)執行動作:在當前狀態s下,若對應的Q值都為0,即第一次訪問該狀態,則隨機選擇動作;否則選擇Q表中最大值所對應的動作,通過該動作a分配一個信道資源給節點,從而a∈{1,2,...,R};
步驟3)記錄獎賞值:獎賞值c(s,a)評價動作產生后的效果,其值由公式c(s,a)=n1(s,a)c1+n2(s,a)c2+n3(s,a)c3+n4(s,a)c4確定,執行步驟2)中的動作a之后,記錄獎賞值c和下一狀態s′;
步驟4)當系統的學習還未達到學習次數T時,轉到步驟2),當超過學習次數T時則終止學習過程,通過學習得到的最優策略,將信道分配給每個閱讀器。
2.根據權利要求1所述的適用于基于Q-learning的閱讀器防碰撞算法,其特征在于,所述閱讀器個數N用于表示節點數目;所述系統可用信道數R用于表示系統可以提供的信道資源數。
3.根據權利要求1~2任意所述的適用于RFID系統的基于Q-learning的閱讀器防碰撞算法,其特征在于,所述初始化參數命令為:初始化所有的Q(s,a)=0。
4.根據權利要求3所述的適用于RFID系統的基于Q-learning的閱讀器防碰撞算法,其特征在于,所述步驟2)中某一時刻的狀態由i和A(i)確定,其中,i表示當前閱讀器,i∈{1,2,...,N},A(i)表示當前閱讀器可用信道資源數,A(i)∈{1,2,...,R},同時定義閱讀器i的信道狀態是R維向量U(i)={u1(i),u2(i),...,uR(i)},且
5.根據權利要求4所述的適用于RFID系統的基于Q-learning的閱讀器防碰撞算法,其特征在于,所述步驟3)獎賞值:c(s,a)=n1(s,a)c1+n2(s,a)c2+n3(s,a)c3+n4(s,a)c4,其中n1(s,a)表示占用信道k且在閱讀器i的干擾范圍內的閱讀器數量,n2(s,a)表示不占用信道k且在閱讀器i的干擾范圍內的閱讀器數量,n3(s,a)表示占用信道k但不在閱讀器i的干擾范圍內的閱讀器數量,n4(s,a)表示不占用信道k且不在閱讀器i的干擾范圍內的閱讀器數量,系數c1,c2,c3,c4通常滿足c1>c2>c3>c4,c(s,a)越小,系統碰撞率越小,符合Q-learning規則。
6.根據權利要求5所述的使用與RFID系統的基于Q-learning的閱讀器防碰撞算法,其特征在于,所述步驟3)根據得到的獎賞值c(s,a),Q值更新函數為:
其中st表示當前時刻的狀態,at表示當前時刻的動作,s′表示下一個狀態,a′表示下一個狀態執行的動作,Qt(s,a)表示當前狀態動作下的Q值,Qt+1(s,a)表示更新后狀態動作對應的Q值,α是學習效率,γ是折扣因子,滿足0≤γ<1。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣西大學,未經廣西大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810407758.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種條碼掃描芯片以及掃描方法
- 下一篇:一種基于多線程的身份證讀取方法





