[發(fā)明專利]人機對抗知識數(shù)據(jù)混合驅(qū)動型決策方法、裝置及電子設(shè)備有效
| 申請?zhí)枺?/td> | 202110489056.8 | 申請日: | 2021-05-06 |
| 公開(公告)號: | CN112906881B | 公開(公告)日: | 2021-08-03 |
| 發(fā)明(設(shè)計)人: | 趙美靜;黃凱奇;尹奇躍 | 申請(專利權(quán))人: | 中國科學院自動化研究所 |
| 主分類號: | G06N3/063 | 分類號: | G06N3/063;G06N7/00 |
| 代理公司: | 北京華夏泰和知識產(chǎn)權(quán)代理有限公司 11662 | 代理人: | 孫劍鋒;李雪 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 人機 對抗 知識 數(shù)據(jù) 混合 驅(qū)動 決策 方法 裝置 電子設(shè)備 | ||
本發(fā)明涉及人工智能領(lǐng)域,尤其涉及一種人機對抗知識數(shù)據(jù)混合驅(qū)動型決策方法、裝置、電子設(shè)備及存儲介質(zhì)。所述方法包括:在每個決策時間節(jié)點,首先在決策規(guī)則庫中查找當前人機對抗態(tài)勢下各行動單元對應的行動任務(wù),在所述決策規(guī)則庫中不存在當前人機對抗態(tài)勢下各行動單元的行動任務(wù)時,再基于蒙特卡洛樹搜索來實現(xiàn)在線決策。本發(fā)明適用于在人機對抗環(huán)境中給出對抗決策。
技術(shù)領(lǐng)域
本發(fā)明涉及人工智能領(lǐng)域,尤其涉及一種人機對抗知識數(shù)據(jù)混合驅(qū)動型決策方法、裝置、電子設(shè)備及存儲介質(zhì)。
背景技術(shù)
人機對抗作為人工智能研究的前沿方向,已成為國內(nèi)外智能領(lǐng)域研究的熱點,并為探尋機器智能的內(nèi)在生長機制和關(guān)鍵技術(shù)的驗證提供有效試驗環(huán)境和途徑。目前,面對復雜、動態(tài)、對抗環(huán)境下智能認知與決策需求,迫切需要以機器為載體的人工智能技術(shù)的輔助與支撐。
隨著人工智能技術(shù)的巨大發(fā)展,將會面臨越來越多的現(xiàn)實世界應用系統(tǒng),在人機對抗決策技術(shù)路線上,一方面,知識驅(qū)動型決策方法具有可解釋的優(yōu)點,但由于知識瓶頸的存在,其決策性能受到約束;另一方面,數(shù)據(jù)驅(qū)動型決策方法具有自主學習的性能,但由于“黑箱”機制,其決策結(jié)果面臨不可解釋的局限。在現(xiàn)實世界應用場景中,如何充分利用知識驅(qū)動型決策方法與數(shù)據(jù)驅(qū)動型決策方法兩者的優(yōu)點,使得人機對抗決策過程做到可解釋、可學習,對提升人機對抗決策的自主化程度和智能化程度具有重要意義。
發(fā)明內(nèi)容
基于此,本發(fā)明實施例提供了一種人機對抗知識數(shù)據(jù)混合驅(qū)動型決策方法、裝置、電子設(shè)備及存儲介質(zhì),能夠充分利用知識驅(qū)動型決策方法與數(shù)據(jù)驅(qū)動型決策方法兩者的優(yōu)點,使得人機對抗決策過程做到可解釋、可學習。
第一方面,本發(fā)明實施例提供了一種人機對抗知識數(shù)據(jù)混合驅(qū)動型決策方法,所述方法包括:在每個決策時間節(jié)點,獲取當前人機對抗態(tài)勢;在決策規(guī)則庫中查找當前人機對抗態(tài)勢下各行動單元分別對應的行動任務(wù),其中,所述決策規(guī)則庫中保存有各種人機對抗態(tài)勢下行動單元與行動任務(wù)之間的對應關(guān)系;若在所述決策規(guī)則庫中沒有查找到當前人機對抗態(tài)勢下各行動單元分別對應的行動任務(wù),則基于蒙特卡洛樹搜索確定當前人機對抗態(tài)勢下各行動單元分別對應的行動任務(wù);將所述當前人機對抗態(tài)勢下各行動單元分別對應的行動任務(wù)發(fā)送給相應的行動單元,以使各所述行動單元執(zhí)行所述行動任務(wù)。
可選的,所述方法還包括:若在所述決策規(guī)則庫中查找到當前人機對抗態(tài)勢下各行動單元分別對應的行動任務(wù),則將查找到的各所述行動任務(wù)發(fā)送給相應的行動單元,以使各所述行動單元執(zhí)行所述行動任務(wù)。
可選的,所述基于蒙特卡洛樹搜索確定當前人機對抗態(tài)勢下各行動單元分別對應的行動任務(wù)包括:按照匹配策略為每個行動單元分別匹配一個行動任務(wù),生成第一戰(zhàn)術(shù);通過擴展策略對所述第一戰(zhàn)術(shù)進行擴展,生成至少一個第二戰(zhàn)術(shù),其中,所述第二戰(zhàn)術(shù)中至少一個行動單元的行動任務(wù)與所述第一戰(zhàn)術(shù)中的該行動單元的行動任務(wù)不同;將所述第一戰(zhàn)術(shù)作為蒙特卡洛樹的根節(jié)點、第二戰(zhàn)術(shù)作為所述蒙特卡洛樹的第一級子節(jié)點,構(gòu)建蒙特卡洛樹;繼續(xù)根據(jù)所述擴展策略對所述蒙特卡洛樹進行擴展,直至所述蒙特卡洛樹達到設(shè)計深度;從所述蒙特卡洛樹中搜索當前人機對抗態(tài)勢下的最優(yōu)戰(zhàn)術(shù);將所述最優(yōu)戰(zhàn)術(shù)中各所述行動單元分別對應的行動任務(wù)作為當前人機對抗態(tài)勢下各行動單元分別對應的行動任務(wù)。
可選的,所述按照匹配策略為每個行動單元分別匹配一個行動任務(wù),生成第一戰(zhàn)術(shù)包括:為每個行動單元隨機匹配一個行動任務(wù),生成第一戰(zhàn)術(shù)。
可選的,所述行動任務(wù)包括以下至少一個任務(wù)要素:任務(wù)客體、任務(wù)目標點、任務(wù)關(guān)鍵點、任務(wù)結(jié)束時間節(jié)點、任務(wù)動作;所述通過擴展策略對所述第一戰(zhàn)術(shù)進行擴展,生成至少一個第二戰(zhàn)術(shù)包括:對所述第一戰(zhàn)術(shù)中至少一個行動單元的行動任務(wù)的任務(wù)要素進行調(diào)整,生成至少一個第二戰(zhàn)術(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學院自動化研究所,未經(jīng)中國科學院自動化研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110489056.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





