[發(fā)明專利]具有自主學(xué)習(xí)能力的在線序列極限學(xué)習(xí)機(jī)方法有效
| 申請(qǐng)?zhí)枺?/td> | 201610020090.X | 申請(qǐng)日: | 2016-01-13 |
| 公開(公告)號(hào): | CN105700526B | 公開(公告)日: | 2018-07-27 |
| 發(fā)明(設(shè)計(jì))人: | 任紅格;史濤;李福進(jìn);尹瑞;張春磊;劉偉民;霍美杰;徐少彬 | 申請(qǐng)(專利權(quán))人: | 華北理工大學(xué) |
| 主分類號(hào): | G05D1/02 | 分類號(hào): | G05D1/02 |
| 代理公司: | 唐山永和專利商標(biāo)事務(wù)所 13103 | 代理人: | 張?jiān)坪?/td> |
| 地址: | 063009 河*** | 國省代碼: | 河北;13 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 具有 自主 學(xué)習(xí) 能力 在線 序列 極限 學(xué)習(xí)機(jī) 方法 | ||
1.具有自主學(xué)習(xí)能力的在線序列極限學(xué)習(xí)機(jī)方法,其特征在于,系統(tǒng)的整體認(rèn)知模型以在線序列極限學(xué)習(xí)機(jī)為基礎(chǔ),模擬人腦認(rèn)知發(fā)育機(jī)制,與Q學(xué)習(xí)算法結(jié)合并設(shè)計(jì)了一個(gè)九元數(shù)組表示:
Q-OSELM=<S,A,R,Q,fL,H,Y,P,θ>
其中各個(gè)部分所表示的內(nèi)容如下:
(1)S={si|i=0,1,2,…,N}表示外部獲得的有限的狀態(tài)集合,si表示第i個(gè)狀態(tài),i為外部動(dòng)機(jī)的個(gè)數(shù);
(2)A={aj|j=0,1,2,…,N}表示有限的外部智能體動(dòng)作集合,aj表示第j個(gè)動(dòng)作,j表示外部動(dòng)作個(gè)數(shù);
(3)R={r(st,at)}表示系統(tǒng)在t時(shí)刻在外部狀態(tài)為st時(shí)所表現(xiàn)出來的外部動(dòng)作at后使?fàn)顟B(tài)轉(zhuǎn)移到st+1后的獎(jiǎng)賞信號(hào);
(4)Q={q(st,at)}表示系統(tǒng)在t時(shí)刻在外部狀態(tài)為st時(shí)所表現(xiàn)出來的外部智能體動(dòng)作at后使?fàn)顟B(tài)轉(zhuǎn)移到st+1后的值函數(shù);
(5)fL:s(t)×a(t)→s(t+1)為狀態(tài)轉(zhuǎn)移方程,即t+1時(shí)刻的外部狀態(tài)s(t+1)總是由t時(shí)刻的外部狀態(tài)s(t)和外部智能體動(dòng)作a(t)共同決定;
(6)表示在線序列極限學(xué)習(xí)機(jī)網(wǎng)絡(luò)系統(tǒng)隱含層輸出集合,為第l個(gè)新訓(xùn)練樣本數(shù)據(jù),l表示新訓(xùn)練樣本數(shù)據(jù)個(gè)數(shù);
(7)Y:為中間參數(shù)轉(zhuǎn)移方程,在k+1時(shí)刻的中間參數(shù)總是由k時(shí)刻的中間參數(shù)與k+1時(shí)刻的在線序列極限學(xué)習(xí)機(jī)網(wǎng)絡(luò)系統(tǒng)隱含層輸出共同決定;
(8)表示在線序列極限學(xué)習(xí)機(jī)網(wǎng)絡(luò)整體的輸出參數(shù)集合,為經(jīng)過第l個(gè)新樣本訓(xùn)練數(shù)據(jù)訓(xùn)練后預(yù)期得到的輸出參數(shù),l表示輸出參數(shù)的個(gè)數(shù);
(9)θ:為在線序列極限學(xué)習(xí)機(jī)網(wǎng)絡(luò)輸出權(quán)值轉(zhuǎn)移方程,在k+1時(shí)刻的輸出權(quán)值參數(shù)總是由k時(shí)刻的輸出權(quán)值參數(shù)k+1時(shí)刻的中間參數(shù)與極限學(xué)習(xí)機(jī)網(wǎng)絡(luò)系統(tǒng)隱含層輸出同時(shí)決定。
2.根據(jù)權(quán)利要求1所述的具有自主學(xué)習(xí)能力的在線序列極限學(xué)習(xí)機(jī)方法,其特征在于,所述的(3)、(4)中,強(qiáng)化Q學(xué)習(xí)算法結(jié)合了動(dòng)態(tài)規(guī)劃與動(dòng)物心理學(xué)知識(shí),從而可以實(shí)現(xiàn)具有回報(bào)的機(jī)器在線學(xué)習(xí);該方法通過Markov決策過程建模,迭代出最優(yōu)解:
Q(st,at)←Q(st,at)+κ[R(st,at)+γmQ(st+1,at+1)-Q(st,at)]
其中,γ為折扣因子,κ為學(xué)習(xí)因子,且0<κ<1;
Q學(xué)習(xí)算法流程如下:
Step1:隨機(jī)初始化Q(st,at);
Step2:觀測(cè)當(dāng)前狀態(tài)st并選擇執(zhí)行一個(gè)動(dòng)作決策at;
Step3:獲得下一狀態(tài)st+1,并同時(shí)獲取獎(jiǎng)勵(lì)信號(hào)r(st,at);
Step4:根據(jù)式Q(st,at)←Q(st,at)+κ[R(st,at)+γmQ(st+1,at+1)-Q(st,at)]更新Q值。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華北理工大學(xué),未經(jīng)華北理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610020090.X/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)
- 細(xì)胞能力檢驗(yàn)
- 平衡能力及反應(yīng)能力鍛煉機(jī)
- 能力應(yīng)用系統(tǒng)及其能力應(yīng)用方法
- 程序能力評(píng)估系統(tǒng)與程序能力評(píng)估方法
- 轉(zhuǎn)向能力預(yù)測(cè)
- 移動(dòng)能力評(píng)估裝置、移動(dòng)能力評(píng)估系統(tǒng)、移動(dòng)能力評(píng)估程序和移動(dòng)能力評(píng)估方法
- 用戶能力評(píng)分
- 隱私保護(hù)能力
- 內(nèi)聯(lián)編碼能力
- 能力商品計(jì)費(fèi)方法、能力開放平臺(tái)和能力商品訂購系統(tǒng)





