[發(fā)明專利]人機對抗知識數(shù)據(jù)混合驅(qū)動型決策方法、裝置及電子設(shè)備有效

申請?zhí)枺?/td>	202110489056.8	申請日：	2021-05-06
公開（公告）號：	CN112906881B	公開（公告）日：	2021-08-03
發(fā)明（設(shè)計）人：	趙美靜;黃凱奇;尹奇躍	申請（專利權(quán)）人：	中國科學院自動化研究所
主分類號：	G06N3/063	分類號：	G06N3/063;G06N7/00
代理公司：	北京華夏泰和知識產(chǎn)權(quán)代理有限公司 11662	代理人：	孫劍鋒;李雪
地址：	100190 ***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	人機對抗知識數(shù)據(jù) 混合驅(qū)動決策方法裝置電子設(shè)備
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明涉及人工智能領(lǐng)域，尤其涉及一種人機對抗知識數(shù)據(jù)混合驅(qū)動型決策方法、裝置、電子設(shè)備及存儲介質(zhì)。所述方法包括：在每個決策時間節(jié)點，首先在決策規(guī)則庫中查找當前人機對抗態(tài)勢下各行動單元對應的行動任務(wù)，在所述決策規(guī)則庫中不存在當前人機對抗態(tài)勢下各行動單元的行動任務(wù)時，再基于蒙特卡洛樹搜索來實現(xiàn)在線決策。本發(fā)明適用于在人機對抗環(huán)境中給出對抗決策。

技術(shù)領(lǐng)域

本發(fā)明涉及人工智能領(lǐng)域，尤其涉及一種人機對抗知識數(shù)據(jù)混合驅(qū)動型決策方法、裝置、電子設(shè)備及存儲介質(zhì)。

背景技術(shù)

人機對抗作為人工智能研究的前沿方向，已成為國內(nèi)外智能領(lǐng)域研究的熱點，并為探尋機器智能的內(nèi)在生長機制和關(guān)鍵技術(shù)的驗證提供有效試驗環(huán)境和途徑。目前，面對復雜、動態(tài)、對抗環(huán)境下智能認知與決策需求，迫切需要以機器為載體的人工智能技術(shù)的輔助與支撐。

隨著人工智能技術(shù)的巨大發(fā)展，將會面臨越來越多的現(xiàn)實世界應用系統(tǒng)，在人機對抗決策技術(shù)路線上，一方面，知識驅(qū)動型決策方法具有可解釋的優(yōu)點，但由于知識瓶頸的存在，其決策性能受到約束；另一方面，數(shù)據(jù)驅(qū)動型決策方法具有自主學習的性能，但由于“黑箱”機制，其決策結(jié)果面臨不可解釋的局限。在現(xiàn)實世界應用場景中，如何充分利用知識驅(qū)動型決策方法與數(shù)據(jù)驅(qū)動型決策方法兩者的優(yōu)點，使得人機對抗決策過程做到可解釋、可學習，對提升人機對抗決策的自主化程度和智能化程度具有重要意義。

發(fā)明內(nèi)容

基于此，本發(fā)明實施例提供了一種人機對抗知識數(shù)據(jù)混合驅(qū)動型決策方法、裝置、電子設(shè)備及存儲介質(zhì)，能夠充分利用知識驅(qū)動型決策方法與數(shù)據(jù)驅(qū)動型決策方法兩者的優(yōu)點，使得人機對抗決策過程做到可解釋、可學習。

第一方面，本發(fā)明實施例提供了一種人機對抗知識數(shù)據(jù)混合驅(qū)動型決策方法，所述方法包括：在每個決策時間節(jié)點，獲取當前人機對抗態(tài)勢；在決策規(guī)則庫中查找當前人機對抗態(tài)勢下各行動單元分別對應的行動任務(wù)，其中，所述決策規(guī)則庫中保存有各種人機對抗態(tài)勢下行動單元與行動任務(wù)之間的對應關(guān)系；若在所述決策規(guī)則庫中沒有查找到當前人機對抗態(tài)勢下各行動單元分別對應的行動任務(wù)，則基于蒙特卡洛樹搜索確定當前人機對抗態(tài)勢下各行動單元分別對應的行動任務(wù)；將所述當前人機對抗態(tài)勢下各行動單元分別對應的行動任務(wù)發(fā)送給相應的行動單元，以使各所述行動單元執(zhí)行所述行動任務(wù)。

可選的，所述方法還包括：若在所述決策規(guī)則庫中查找到當前人機對抗態(tài)勢下各行動單元分別對應的行動任務(wù)，則將查找到的各所述行動任務(wù)發(fā)送給相應的行動單元，以使各所述行動單元執(zhí)行所述行動任務(wù)。

可選的，所述基于蒙特卡洛樹搜索確定當前人機對抗態(tài)勢下各行動單元分別對應的行動任務(wù)包括：按照匹配策略為每個行動單元分別匹配一個行動任務(wù)，生成第一戰(zhàn)術(shù)；通過擴展策略對所述第一戰(zhàn)術(shù)進行擴展，生成至少一個第二戰(zhàn)術(shù)，其中，所述第二戰(zhàn)術(shù)中至少一個行動單元的行動任務(wù)與所述第一戰(zhàn)術(shù)中的該行動單元的行動任務(wù)不同；將所述第一戰(zhàn)術(shù)作為蒙特卡洛樹的根節(jié)點、第二戰(zhàn)術(shù)作為所述蒙特卡洛樹的第一級子節(jié)點，構(gòu)建蒙特卡洛樹；繼續(xù)根據(jù)所述擴展策略對所述蒙特卡洛樹進行擴展，直至所述蒙特卡洛樹達到設(shè)計深度；從所述蒙特卡洛樹中搜索當前人機對抗態(tài)勢下的最優(yōu)戰(zhàn)術(shù)；將所述最優(yōu)戰(zhàn)術(shù)中各所述行動單元分別對應的行動任務(wù)作為當前人機對抗態(tài)勢下各行動單元分別對應的行動任務(wù)。

可選的，所述按照匹配策略為每個行動單元分別匹配一個行動任務(wù)，生成第一戰(zhàn)術(shù)包括：為每個行動單元隨機匹配一個行動任務(wù)，生成第一戰(zhàn)術(shù)。

可選的，所述行動任務(wù)包括以下至少一個任務(wù)要素：任務(wù)客體、任務(wù)目標點、任務(wù)關(guān)鍵點、任務(wù)結(jié)束時間節(jié)點、任務(wù)動作；所述通過擴展策略對所述第一戰(zhàn)術(shù)進行擴展，生成至少一個第二戰(zhàn)術(shù)包括：對所述第一戰(zhàn)術(shù)中至少一個行動單元的行動任務(wù)的任務(wù)要素進行調(diào)整，生成至少一個第二戰(zhàn)術(shù)。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學院自動化研究所，未經(jīng)中國科學院自動化研究所許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110489056.8/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06N 基于特定計算模型的計算機系統(tǒng)
G06N3-00 基于生物學模型的計算機系統(tǒng)
G06N3-02 .采用神經(jīng)網(wǎng)絡(luò)模型
G06N3-12 .采用遺傳模型
G06N3-04 ..體系結(jié)構(gòu)，例如，互連拓撲
G06N3-06 ..物理實現(xiàn)，即神經(jīng)網(wǎng)絡(luò)、神經(jīng)元或神經(jīng)元部分的硬件實現(xiàn)
G06N3-08 ..學習方法

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】