[發明專利]一種自適應的隨機多臂決策問題計算方法及其裝置在審
| 申請號: | 201710174634.2 | 申請日: | 2017-03-22 |
| 公開(公告)號: | CN106886389A | 公開(公告)日: | 2017-06-23 |
| 發明(設計)人: | 周倩;章曉芳;章鵬 | 申請(專利權)人: | 蘇州大學 |
| 主分類號: | G06F7/50 | 分類號: | G06F7/50;G06F7/58 |
| 代理公司: | 北京集佳知識產權代理有限公司11227 | 代理人: | 羅滿 |
| 地址: | 215123 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 自適應 隨機 決策 問題 計算方法 及其 裝置 | ||
1.一種自適應的隨機多臂決策問題計算方法,其特征在于,包括:
步驟s101:初始化每個動作的估計值和選擇次數;
步驟s102:依據當前各個所述動作的估計值和選擇次數,確定估計值最小的動作的選擇次數m,得出當前時間步的探索概率w/(w+m2);
步驟s103:按照w/(w+m2)的概率進行探索操作,1-w/(w+m2)的概率進行利用操作;其中,w為預設算法參數,所述探索操作為從當前選擇次數最少的若干個動作中隨機選取一個動作作為下一時間步的動作,所述利用操作為選擇當前估計值最大的動作作為下一時間步的動作;
步驟s104:下一時間步的動作選擇完成后,生成隨機獎賞;
步驟s105:依據所述隨機獎賞以及所選擇的動作更新各個所述動作的估計值以及選擇次數,返回步驟s102,直至完成預設最大時間步的動作后,進入步驟s106;
步驟s106:統計所述預設最大時間步內得到的隨機獎賞之和,得到累積獎賞。
2.根據權利要求1所述的方法,其特征在于,初始化后的估計值和選擇次數均為0。
3.根據權利要求1所述的方法,其特征在于,w∈[0.1,1]。
4.一種自適應的隨機多臂決策問題計算裝置,其特征在于,包括:
初始化模塊,用于初始化每個動作的估計值和選擇次數;
探索概率模塊,用于依據當前各個所述動作的估計值和選擇次數,確定估計值最小的動作的選擇次數m,得出當前時間步的探索概率w/(w+m2);觸發操作選擇模塊;
所述操作選擇模塊,用于按照w/(w+m2)的概率進行探索操作,1-w/(w+m2)的概率進行利用操作;其中,w為預設算法參數,所述探索操作為從當前選擇次數最少的若干個動作中隨機選取一個動作作為下一時間步的動作,所述利用操作為選擇當前估計值最大的動作作為下一時間步的動作;下一時間步的動作選擇完成后,觸發獎賞生成模塊;
所述獎賞生成模塊,用于生成隨機獎賞;
更新模塊,用于依據所述隨機獎賞以及所選擇的動作更新各個所述動作的估計值以及選擇次數,并觸發所述次數選擇模塊,直至完成預設最大時間步的動作后,觸發統計模塊;
所述統計模塊,用于統計所述預設最大時間步內得到的隨機獎賞之和,得到累積獎賞。
5.根據權利要求4所述的裝置,其特征在于,所述初始化模塊具體用于令每個所述動作的估計值和選擇次數均為0。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州大學,未經蘇州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710174634.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種播放音頻數據的方法及終端
- 下一篇:一種windows系統屏幕鎖定方法





