[發(fā)明專利]一種結(jié)合馬爾科夫決策過程的動作知識提取方法在審
| 申請?zhí)枺?/td> | 201710173631.7 | 申請日: | 2017-03-22 |
| 公開(公告)號: | CN106997488A | 公開(公告)日: | 2017-08-01 |
| 發(fā)明(設計)人: | 呂強;李兆榮;李歡 | 申請(專利權(quán))人: | 揚州大學 |
| 主分類號: | G06N99/00 | 分類號: | G06N99/00;G06K9/62 |
| 代理公司: | 南京理工大學專利中心32203 | 代理人: | 唐代盛 |
| 地址: | 225009 *** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 結(jié)合 馬爾科夫 決策 過程 動作 知識 提取 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明屬于機器學習技術(shù)領(lǐng)域,特別是一種結(jié)合馬爾科夫決策過程的動作知識提取方法。
背景技術(shù)
在機器學習中,許多模型如支持向量機、隨機森林、深層神經(jīng)網(wǎng)絡已經(jīng)被提出并取得了很大的成功,但是在許多實際應用中,這些模型的可實施性比較差。
強化學習是一類特殊的機器學習,通過與所在環(huán)境的自主交互來學習決策策略,使得策略收到的長期累積獎賞最大;強化學習與其他機器學習方法的區(qū)別在于:不用預先給出訓練數(shù)據(jù),而是要通過與環(huán)境的交互來產(chǎn)生;在管理科學領(lǐng)域,知識提取問題是采用統(tǒng)計學的方法來分析用戶的行為并找出特定的規(guī)則;在機器學習領(lǐng)域,知識提取問題主要是采用模型后續(xù)分析技術(shù)。
這兩類方法的主要缺點是他們是用全部數(shù)據(jù)建立模型來提取知識,并不是對單獨記錄提取其有用的知識。所以在許多應用中,這些模型的可實施性比較差,因為這些模型僅對狀態(tài)的一個屬性值進行修改,這就造成了在實際應用中結(jié)果會出現(xiàn)誤差,不能準確地給出可行性的建議。
發(fā)明內(nèi)容
本發(fā)明所解決的技術(shù)問題在于提供一種結(jié)合馬爾科夫決策過程的動作知識提取方法,以解決現(xiàn)有技術(shù)中用全部數(shù)據(jù)建立模型提取知識和只改變狀態(tài)的一個屬性值,導致結(jié)果誤差較大的問題;本發(fā)明通過強化學習的馬爾科夫決策過程實現(xiàn)數(shù)據(jù)驅(qū)動的動作知識提取,實現(xiàn)把機器學習模型的預測結(jié)果轉(zhuǎn)化為動作知識的能力。
實現(xiàn)本發(fā)明目的的技術(shù)解決方案為:
一種結(jié)合馬爾科夫決策過程的動作知識提取方法,包括如下步驟:
步驟1:訓練隨機森林模型H;
步驟2:定義動作知識提取問題AKE:針對隨機森林模型H,對屬性進行分割,定義屬性變化、動作,在此基礎上定義動作知識提取問題AKE;
步驟3、用馬爾科夫決策過程求解AKE優(yōu)化問題:對任意輸入數(shù)據(jù),定義馬爾科夫決策過程MDP,并定義策略,通過策略迭代更新策略,最后求解得到一個最優(yōu)策略。
本發(fā)明與現(xiàn)有技術(shù)相比,其顯著優(yōu)點:
(1)本發(fā)明提出了一種結(jié)合經(jīng)典強化學習方法馬爾科夫決策過程的方法,為當前動作知識提取領(lǐng)域提供了一種新的方法。
(2)本發(fā)明提出的動作知識提取技術(shù)有效地改進了在有限時間內(nèi)找到最優(yōu)策略的準確率;本發(fā)明是基于隨機森林模型,隨機森林模型是現(xiàn)有的最好分類模型之一,已被廣泛用于實際問題中,通過隨機森林模型的預處理,可以使得數(shù)據(jù)有序分類,優(yōu)化了在后續(xù)的馬爾科夫決策過程中迭代尋找最優(yōu)策略的時間。
(3)本發(fā)明中動作知識提取定義的動作,能夠改變狀態(tài)的多個屬性值,在實際應用中,將會給出準確的可行性建議。
(4)基于馬爾科夫決策過程中每步狀態(tài)完全可以被觀測到,迭代尋找最優(yōu)策略的準確率得以保證;結(jié)合馬爾科夫決策過程不需要使用全部數(shù)據(jù)來建立模型的特點,本發(fā)明能夠針對某個單獨記錄提取其可用的動作知識,可以通過與環(huán)境的交互來自主地了解環(huán)境并得到一個更好的策略。
下面結(jié)合附圖對本發(fā)明作進一步詳細描述。
附圖說明
圖1為本發(fā)明方法總體流程圖。
具體實施方式
本發(fā)明的一種結(jié)合馬爾科夫決策過程的動作知識提取方法,結(jié)合機器學習與強化學習,利用馬爾科夫決策過程提取動作知識;具體步驟如下:
步驟1:訓練隨機森林模型H:
給定一個訓練數(shù)據(jù)集,建立一個隨機森林模型H;定義訓練數(shù)據(jù)集為{X,Y},X為輸入數(shù)據(jù)向量集合,Y為輸出類別標記集合,通過隨機采樣和完全分裂建立隨機森林模型H,隨機森林模型H的預測函數(shù)為
其中,為輸入向量,y∈Y,y為隨機森林模型H在輸入向量為的情況下輸出的預測分類,c為期望分類目標,d為第d棵決策樹,D為隨機森林中決策樹的總棵數(shù),wd為第d棵決策樹的權(quán)重,為第d棵決策樹在輸入的情況下對應的輸出,為指示函數(shù),表示在輸入數(shù)據(jù)向量為的情況下輸出的預測分類為c的概率。
步驟2:定義動作知識提取問題(AKE):針對隨機森林模型H,對屬性進行分割,定義屬性變化、動作,在此基礎上定義動作知識提取問題(AKE)。
2.1對屬性進行分割:給定一個隨機森林模型H,每一個屬性xi(i=1,…,M)被分割為M個數(shù)量的區(qū)間。
1)如果屬性xi是分類類型的并且具有n個分類,則屬性xi自然被分割成n個區(qū)間,此時M=n。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于揚州大學,未經(jīng)揚州大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710173631.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種動力電池點焊設備
- 下一篇:一種鐳射焊接手機排線支架的治具





