[發(fā)明專利]一種基于馬爾科夫決策過程的自適應(yīng)系統(tǒng)更新與修復(fù)方法在審
| 申請?zhí)枺?/td> | 202010894470.2 | 申請日: | 2020-08-31 |
| 公開(公告)號: | CN112115987A | 公開(公告)日: | 2020-12-22 |
| 發(fā)明(設(shè)計)人: | 楊文華;周宇;黃志球 | 申請(專利權(quán))人: | 南京航空航天大學(xué) |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F8/65 |
| 代理公司: | 南京蘇高專利商標事務(wù)所(普通合伙) 32204 | 代理人: | 李淑靜 |
| 地址: | 210016 江*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 馬爾科夫 決策 過程 自適應(yīng) 系統(tǒng) 更新 修復(fù) 方法 | ||
1.一種基于馬爾科夫決策過程的自適應(yīng)系統(tǒng)更新與修復(fù)方法,其特征在于,包括以下步驟:
基于馬爾科夫決策過程構(gòu)建自適應(yīng)系統(tǒng)的馬爾科夫決策過程模型;
獲取環(huán)境變化,通過可達性檢查識別出新環(huán)境下的不可達狀態(tài),在馬爾科夫決策過程模型中刪除不可達狀態(tài)和不可行遷移;
獲取新環(huán)境下系統(tǒng)的新狀態(tài),將新的狀態(tài)和新的遷移添加到馬爾科夫決策過程模型中;
基于狀態(tài)更新后的馬爾科夫決策過程模型,根據(jù)自適應(yīng)系統(tǒng)的實際運行情況及已有的應(yīng)用邏輯,更新模型中的遷移概率;
對更新后的馬爾科夫決策過程模型進行修復(fù)。
2.根據(jù)權(quán)利要求1所述的一種基于馬爾科夫決策過程的自適應(yīng)系統(tǒng)更新與修復(fù)方法,其特征在于,所述自適應(yīng)系統(tǒng)為小車避障系統(tǒng),所述自適應(yīng)系統(tǒng)的馬爾科夫決策過程模型形式表示為一個六元組(S,s0,A,T,L,R),其中系統(tǒng)狀態(tài)S為小車所處的位置集合,而s0是初始狀態(tài);動作A為小車可以執(zhí)行的動作集合;轉(zhuǎn)換函數(shù)T規(guī)定了小車在何種狀態(tài)下執(zhí)行何種動作;標記函數(shù)L描述了小車在每個狀態(tài)下需要滿足的條件;獎勵函數(shù)R表示小車執(zhí)行某個動作帶來的收益。
3.根據(jù)權(quán)利要求2所述的一種基于馬爾科夫決策過程的自適應(yīng)系統(tǒng)更新與修復(fù)方法,其特征在于,所述通過可達性檢查識別出新環(huán)境下的不可達狀態(tài)包括:
對于每個屬于狀態(tài)集合中的狀態(tài)s’∈S,找到所有滿足條件的狀態(tài)s∈S和動作a∈A,使得T(s,a,s’)不等于0,然后檢查T(s,a,s’)在新環(huán)境E’下是否滿足以下兩個條件:(1)s和s’在新環(huán)境下是否依然有效,即新環(huán)境下系統(tǒng)狀態(tài)中仍有s和s’;(2)當滿足L(s)且動作a執(zhí)行的條件滿足時,如果執(zhí)行a,是否滿足L(s’);當上述條件都不能滿足時,通過將T(s,a,s’)設(shè)置為0來消除這種遷移;對于狀態(tài)s’,如果所有遷移到該狀態(tài)的遷移都被移除則刪除該狀態(tài)。
4.根據(jù)權(quán)利要求2所述的一種基于馬爾科夫決策過程的自適應(yīng)系統(tǒng)更新與修復(fù)方法,其特征在于,所述獲取新環(huán)境下系統(tǒng)的新狀態(tài)包括:在新環(huán)境E’下,對于每個狀態(tài)s∈S,嘗試對s執(zhí)行動作集合中的每個動作a∈A,根據(jù)執(zhí)行動作a獲得的系統(tǒng)條件,獲取當前狀態(tài),當出現(xiàn)一個還沒有加入狀態(tài)空間的新狀態(tài)時,將其加入到系統(tǒng)狀態(tài)S中,并將與之相關(guān)的遷移也加入到自適應(yīng)系統(tǒng)的馬爾科夫決策過程模型中。
5.根據(jù)權(quán)利要求4所述的一種基于馬爾科夫決策過程的自適應(yīng)系統(tǒng)更新與修復(fù)方法,其特征在于,所述獲取新環(huán)境下系統(tǒng)的新狀態(tài)還包括:在新狀態(tài)下嘗試所有可能的遷移以檢查是否可以遷移到其他狀態(tài),如果存在這樣的情況,則將該遷移加入到自適應(yīng)系統(tǒng)的馬爾科夫決策過程模型中。
6.根據(jù)權(quán)利要求1所述的一種基于馬爾科夫決策過程的自適應(yīng)系統(tǒng)更新與修復(fù)方法,其特征在于,所述更新模型中的遷移概率時遵循以下規(guī)則進行更新:(1)從任意狀態(tài)s開始以動作a進行的所有遷移的概率之和應(yīng)等于1;(2)從狀態(tài)s執(zhí)行動作a而轉(zhuǎn)為狀態(tài)s’的每個遷移的概率T(s,a,s’)應(yīng)真實反映系統(tǒng)感知不確定性的情況。
7.根據(jù)權(quán)利要求1所述的一種基于馬爾科夫決策過程的自適應(yīng)系統(tǒng)更新與修復(fù)方法,其特征在于,所述對更新后的馬爾科夫決策過程模型進行修復(fù)包括:
建立修復(fù)目標:將狀態(tài)更新后的馬爾科夫決策過程模型中的T(siq,amq,sjq)修改為prnq,其中siq和sjq都是表示模型中的某個狀態(tài),amq表示這兩個狀態(tài)間遷移的動作,prnq表示需要將兩個狀態(tài)間的遷移概率改為的值;
搜索從siq到sjq的替代路徑,使得替代路徑中轉(zhuǎn)移概率的乘積等于或近似等于T(siq,amq,sjq),當兩個概率之間的差距小于給定閾值時,停止搜索,返回新的馬爾可夫決策過程模型。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京航空航天大學(xué),未經(jīng)南京航空航天大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010894470.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標記或含有代碼標記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 決策協(xié)調(diào)方法、執(zhí)行裝置和決策協(xié)調(diào)器
- 一種基于循環(huán)更新模式的決策樹構(gòu)建方法
- 一種基于群決策的建筑項目決策系統(tǒng)及決策方法
- 一種基于反射弧的智慧大腦決策系統(tǒng)及決策方法
- 一種三維消防指揮決策輔助系統(tǒng)
- 一種決策方法、系統(tǒng)以及電子設(shè)備
- 基于決策引擎和模型平臺的業(yè)務(wù)決策邏輯更新方法
- 一種雙層優(yōu)先級決策系統(tǒng)
- 一種應(yīng)用程序的業(yè)務(wù)執(zhí)行方法、裝置及電子設(shè)備
- 基于區(qū)塊鏈的決策方法及裝置和電子設(shè)備





