日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發(fā)明專(zhuān)利]一種基于知識(shí)驅(qū)動(dòng)的多智能體強(qiáng)化學(xué)習(xí)決策方法、系統(tǒng)及存儲(chǔ)介質(zhì)在審

專(zhuān)利信息
申請(qǐng)?zhí)枺?/td> 202310089073.1 申請(qǐng)日: 2023-02-03
公開(kāi)(公告)號(hào): CN116090549A 公開(kāi)(公告)日: 2023-05-09
發(fā)明(設(shè)計(jì))人: 殷昌盛;楊若鵬;楊遠(yuǎn)濤;魯義威;韋文夏;石永琪;盧穩(wěn)新;何渤 申請(qǐng)(專(zhuān)利權(quán))人: 中國(guó)人民解放軍國(guó)防科技大學(xué)
主分類(lèi)號(hào): G06N3/092 分類(lèi)號(hào): G06N3/092;G06N3/09;G06N3/094;G06N3/042;G06N3/0475
代理公司: 武漢東喻專(zhuān)利代理事務(wù)所(普通合伙) 42224 代理人: 張英
地址: 410073 湖*** 國(guó)省代碼: 湖南;43
權(quán)利要求書(shū): 查看更多 說(shuō)明書(shū): 查看更多
摘要:
搜索關(guān)鍵詞: 一種 基于 知識(shí) 驅(qū)動(dòng) 智能 強(qiáng)化 學(xué)習(xí) 決策 方法 系統(tǒng) 存儲(chǔ) 介質(zhì)
【說(shuō)明書(shū)】:

發(fā)明公開(kāi)了一種基于知識(shí)驅(qū)動(dòng)的多智能體強(qiáng)化學(xué)習(xí)決策方法,該方法包括:將基于知識(shí)重構(gòu)的策略初始優(yōu)化引入智能體初始化步驟中,構(gòu)成強(qiáng)化學(xué)習(xí)的初始階段;將基于知識(shí)導(dǎo)向的獎(jiǎng)勵(lì)函數(shù)塑形引入強(qiáng)化學(xué)習(xí)過(guò)程中;獲取樣本數(shù)據(jù)集,訓(xùn)練并更新神經(jīng)網(wǎng)絡(luò),產(chǎn)生輸出策略;收集輸出策略,利用輸出策略構(gòu)建基于虛擬自博弈的聯(lián)盟訓(xùn)練,將聯(lián)盟訓(xùn)練結(jié)果用于更新智能體策略和對(duì)手池;停止訓(xùn)練后輸出最終策略。本發(fā)明針對(duì)復(fù)雜策略空間下智能決策模型訓(xùn)練效率問(wèn)題等現(xiàn)實(shí)問(wèn)題,圍繞獎(jiǎng)勵(lì)稀疏延時(shí)、探索盲目性和不穩(wěn)定性三個(gè)問(wèn)題分別采取上述方法,可以有效提升了多智能體強(qiáng)化學(xué)習(xí)的效率和智能決策模型水平,實(shí)現(xiàn)了一種基于知識(shí)驅(qū)動(dòng)的多智能體強(qiáng)化學(xué)習(xí)決策方法。

技術(shù)領(lǐng)域

本發(fā)明涉及人工智能技術(shù)領(lǐng)域,更具體地,涉及一種基于知識(shí)驅(qū)動(dòng)的多智能體強(qiáng)化學(xué)習(xí)決策方法、系統(tǒng)及存儲(chǔ)介質(zhì)。

背景技術(shù)

近年來(lái),以深度學(xué)習(xí)(deep?learning,DU)為核心的智能技術(shù)取得了長(zhǎng)足的進(jìn)步,特別是以深度強(qiáng)化學(xué)習(xí)(deep?reinforcement?learning,DRL)為代表的智能方法在解決雅達(dá)利游戲、棋類(lèi)博弈對(duì)抗、即時(shí)策略游戲(real-time?strategy,RTS)等決策問(wèn)題上取得了眾多超越人類(lèi)水平的成果,使得面向自主認(rèn)知的智能決策有望得到進(jìn)一步發(fā)展,并取得關(guān)鍵性突破。強(qiáng)化學(xué)習(xí)(reinforcement?learning,RL)作為解決序貫決策問(wèn)題的重要方法,其通過(guò)與環(huán)境的交互試錯(cuò)來(lái)學(xué)習(xí)策略,恰好契合了人類(lèi)的經(jīng)驗(yàn)學(xué)習(xí)和決策思維方式,可以有效解決樣本數(shù)據(jù)獲取難等問(wèn)題。

雖然強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)可以擬合表征較為復(fù)雜的策略模型,但是隨著網(wǎng)絡(luò)層數(shù)的增加和網(wǎng)絡(luò)參數(shù)的增加,網(wǎng)絡(luò)訓(xùn)練的計(jì)算量會(huì)呈指數(shù)級(jí)增長(zhǎng)。特別是對(duì)于即時(shí)策略游戲中大規(guī)模聯(lián)合作戰(zhàn)指揮決策問(wèn)題,巨大的策略空間會(huì)帶來(lái)一系列連鎖問(wèn)題,嚴(yán)重影響模型的訓(xùn)練效率,主要體現(xiàn)在三個(gè)方面:

一是獎(jiǎng)勵(lì)稀疏延時(shí)導(dǎo)致學(xué)習(xí)效率低下。強(qiáng)化學(xué)習(xí)的學(xué)習(xí)目標(biāo)能否與作戰(zhàn)任務(wù)目標(biāo)統(tǒng)一,獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)起著決定性作用。戰(zhàn)爭(zhēng)游戲作為典型復(fù)雜問(wèn)題,以自然語(yǔ)言形式表征的作戰(zhàn)目標(biāo)卻很難直接轉(zhuǎn)換成準(zhǔn)確的獎(jiǎng)勵(lì)函數(shù),同時(shí)由于作戰(zhàn)影響因素的復(fù)雜性,對(duì)于單個(gè)動(dòng)作行為很難給出即時(shí)準(zhǔn)確的反饋,即獎(jiǎng)勵(lì)函數(shù)存在反饋稀疏、延遲和不準(zhǔn)確的問(wèn)題,嚴(yán)重影響強(qiáng)化學(xué)習(xí)的效率。

二是探索盲目性導(dǎo)致訓(xùn)練難以收斂。強(qiáng)化學(xué)習(xí)的“試錯(cuò)”機(jī)制雖然可以有效解決作戰(zhàn)樣本數(shù)據(jù)缺乏問(wèn)題,但這種盲目性也帶來(lái)學(xué)習(xí)效率低的問(wèn)題。特別是在復(fù)雜大規(guī)模作戰(zhàn)背景下,決策空間巨大,在訓(xùn)練初始階段盲目試錯(cuò)機(jī)制的效率低問(wèn)題就更為明顯,甚至根本無(wú)法得到有效的樣本數(shù)據(jù)。

三是不穩(wěn)定性導(dǎo)致策略魯棒性不夠。強(qiáng)化學(xué)習(xí)是通過(guò)自博弈形式得到樣本數(shù)據(jù),所以其抽樣得到的訓(xùn)練樣本質(zhì)量完全取決于自博弈階段智能體水平。而智能體的策略學(xué)習(xí)是通過(guò)在策略空間中不斷地探索與利用實(shí)現(xiàn),而復(fù)雜策略空間下如果探索有限則會(huì)使得智能體策略具有片面局限性,即模型性能的不穩(wěn)定性,反之大量的探索又會(huì)導(dǎo)致模型難以收斂,即模型訓(xùn)練的不穩(wěn)定性,最終都會(huì)降低智能體策略的魯棒性。

發(fā)明內(nèi)容

針對(duì)現(xiàn)有技術(shù)的至少一個(gè)缺陷或改進(jìn)需求,本發(fā)明提供了一種基于知識(shí)驅(qū)動(dòng)的多智能體強(qiáng)化學(xué)習(xí)決策方法、系統(tǒng)及存儲(chǔ)介質(zhì),用以解決上述問(wèn)題中的至少一個(gè)。

為實(shí)現(xiàn)上述目的,按照本發(fā)明的第一個(gè)方面,提供了一種基于知識(shí)驅(qū)動(dòng)的多智能體強(qiáng)化學(xué)習(xí)決策方法,該方法包括:

S1.將基于知識(shí)重構(gòu)的策略初始優(yōu)化引入智能體初始化步驟中,構(gòu)成強(qiáng)化學(xué)習(xí)的初始階段;

S2.將基于知識(shí)導(dǎo)向的獎(jiǎng)勵(lì)函數(shù)塑形引入強(qiáng)化學(xué)習(xí)過(guò)程中;

S3.獲取所述S2步驟的樣本數(shù)據(jù)集,訓(xùn)練并更新神經(jīng)網(wǎng)絡(luò),產(chǎn)生輸出策略;

S4.收集所述S3步驟的所述輸出策略,利用所述輸出策略構(gòu)建基于虛擬自博弈的聯(lián)盟訓(xùn)練,將所述聯(lián)盟訓(xùn)練結(jié)果用于更新智能體策略和對(duì)手池;

S5.停止訓(xùn)練后,輸出最終策略。

進(jìn)一步地,上述基于知識(shí)驅(qū)動(dòng)的多智能體強(qiáng)化學(xué)習(xí)決策方法還包括:

下載完整專(zhuān)利技術(shù)內(nèi)容需要扣除積分,VIP會(huì)員可以免費(fèi)下載。

該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于中國(guó)人民解放軍國(guó)防科技大學(xué),未經(jīng)中國(guó)人民解放軍國(guó)防科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/202310089073.1/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。

×

專(zhuān)利文獻(xiàn)下載

說(shuō)明:

1、專(zhuān)利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專(zhuān)利說(shuō)明書(shū);

2、支持發(fā)明專(zhuān)利 、實(shí)用新型專(zhuān)利、外觀設(shè)計(jì)專(zhuān)利(升級(jí)中);

3、專(zhuān)利數(shù)據(jù)每周兩次同步更新,支持Adobe PDF格式;

4、內(nèi)容包括專(zhuān)利技術(shù)的結(jié)構(gòu)示意圖流程工藝圖技術(shù)構(gòu)造圖

5、已全新升級(jí)為極速版,下載速度顯著提升!歡迎使用!

請(qǐng)您登陸后,進(jìn)行下載,點(diǎn)擊【登陸】 【注冊(cè)】

關(guān)于我們 尋求報(bào)道 投稿須知 廣告合作 版權(quán)聲明 網(wǎng)站地圖 友情鏈接 企業(yè)標(biāo)識(shí) 聯(lián)系我們

鉆瓜專(zhuān)利網(wǎng)在線咨詢

周一至周五 9:00-18:00

咨詢?cè)诰€客服咨詢?cè)诰€客服
tel code back_top
主站蜘蛛池模板: av不卡一区二区三区| 亚洲一区二区三区加勒比| 91夜夜夜| 偷拍自中文字av在线| 96国产精品视频| 91精品久| 久久久久久国产一区二区三区| 欧美色图视频一区| 欧美精品日韩精品| 亚洲欧美国产一区二区三区| 国产麻豆一区二区三区在线观看 | 日韩中文字幕一区二区在线视频| 国产欧美久久一区二区三区| 国产精品麻豆一区二区| 国产一区日韩一区| 岛国黄色av| 亚洲欧美v国产一区二区| 午夜影院激情| 久久97国产| 国产精品三级久久久久久电影| 国产精品美女久久久免费| 91久久国产露脸精品| 国产一区二区精华| 国产欧美二区| 午夜影院5分钟| 久久亚洲综合国产精品99麻豆的功能介绍| 好吊妞国产欧美日韩免费观看网站| 91高清一区| 黑人巨大精品欧美黑寡妇| 在线精品国产一区二区三区| 国产精品自拍不卡| 国产欧美一区二区精品性| 国产网站一区二区| 99久久精品国产国产毛片小说| 艳妇荡乳欲伦2| 欧美69精品久久久久久不卡| 久久国产精品网站| 视频国产一区二区| 国产亚洲另类久久久精品 | 欧美精品国产一区二区| 国产一区二区电影| 国产一区二区大片| 一区二区三区日韩精品| 中文字幕一区二区三区乱码视频| 少妇av一区二区三区| 国产精品麻豆99久久久久久| 午夜伦理片在线观看| 国产精品1区二区| 国产精品久久久麻豆| 亚洲精品国产91| 精品一区二区超碰久久久| 久久婷婷国产综合一区二区| 日本免费电影一区二区| 午夜码电影| 午夜影院啪啪| 狠狠色噜噜狼狼狼色综合久| 欧美日韩激情在线| 中文字幕视频一区二区| 欧美在线精品一区| 精品一区二区在线视频| 夜夜爱av| 久久国产精品99国产精| 国产精品19乱码一区二区三区| 麻豆91在线| 午夜情所理论片| 色噜噜日韩精品欧美一区二区| 欧美视频1区| 亚洲va国产| 国产精品九九九九九| 欧美激情视频一区二区三区| 亚洲日韩aⅴ在线视频| 亚洲三区二区一区| 午夜看片在线| 国产精品国产三级国产专区55| 国产麻豆一区二区| 年轻bbwwbbww高潮| 国产精品自产拍在线观看蜜| 国产亚洲精品久久久456| 久久黄色精品视频| 91精品一区在线观看| 欧美精品乱码视频一二专区| 久久国产欧美一区二区免费| 国产色婷婷精品综合在线播放| 狠狠色综合久久婷婷色天使| 亚洲麻豆一区| 蜜臀久久99精品久久一区二区| 久久久久国产精品免费免费搜索 | **毛片免费| 中文在线一区二区三区| 在线国产精品一区| 国产馆一区二区| 国产在线一区观看| 少妇**毛片| 99re6国产露脸精品视频网站| 制服丝袜二区| 一区二区三区国产精华| 97精品国产97久久久久久| 久爱精品视频在线播放| 中文字幕精品一区二区三区在线| 亚洲精品456在线播放| 91精品一二区| 91亚洲精品国偷拍| 亚洲欧美国产精品va在线观看| 国产高清在线观看一区| 久久久人成影片免费观看| 在线观看国产91| 日韩精品免费一区二区中文字幕 | 日本二区在线观看| 国产一区二区三区伦理| 国产精品精品视频一区二区三区 | 亚洲精品乱码久久久久久按摩| 曰韩av在线| 免费毛片**| 91视频国产一区| 国产理论片午午午伦夜理片2021 | free性欧美hd另类丰满 | 日韩无遮挡免费视频| 日韩av在线一区| 91精品啪在线观看国产线免费| 亚洲视频h| 欧美精选一区二区三区| 男人的天堂一区二区| 国产清纯白嫩初高生在线播放性色| 国产精品久久久久久久久久久不卡| 久久国产欧美视频| 日韩精品免费一区二区夜夜嗨| 乱子伦农村| av素人在线| 久久激情综合网| 精品国产免费久久| 国产欧美日韩va另类在线播放| 日本一区二区三区在线看| 91高清一区| 色一情一乱一乱一区免费网站 | 夜夜躁狠狠躁日日躁2024| 免费看性生活片| 福利电影一区二区三区| 精品少妇一区二区三区免费观看焕| 国产高清精品一区二区| 国产97在线播放| 中文字幕在线一二三区| а√天堂8资源中文在线| 国产精品高潮呻吟久| 亚洲日本国产精品| 国产一区二区伦理片| 日韩av在线网址| 99国产超薄丝袜足j在线观看| 午夜看片在线| 97久久超碰国产精品红杏| 99国产精品| 美女被羞羞网站视频软件| 欧美国产一区二区在线| 91九色精品| 狠狠色狠狠综合久久| 久久99亚洲精品久久99果| 欧美精品免费一区二区| 99久久国产免费,99久久国产免费大片 | 欧美三区视频| 夜夜夜夜夜猛噜噜噜噜噜gg| 综合欧美一区二区三区| 日本一二三区视频在线| 欧美午夜精品一区二区三区| 国产二区不卡| 欧美日韩国产区| 久久婷婷国产香蕉| 欧美性猛交xxxxxⅹxx88| 精品国产九九九| 久久精品爱爱视频| 精品国产一级| 久久精品综合视频| 久久精品国产亚| 色一情一交一乱一区二区三区| 欧美激情视频一区二区三区| 91一区在线观看| 毛片大全免费看| 97精品国产97久久久久久| 国产精华一区二区精华| 亚洲精欧美一区二区精品| 99久久精品一区| 羞羞免费视频网站| 午夜电影网一区| 国产高清一区在线观看| 国产99久久九九精品免费| 欧美高清一二三区| 91麻豆精品国产91久久久更新资源速度超快 | 99国产精品一区| 97视频一区| 亚洲欧美日本一区二区三区| 午夜国产一区| 欧美一区二区三区久久久| 午夜影院伦理片| 国产91九色在线播放| 日本三级香港三级| 日本精品视频一区二区三区 | 日本久久丰满的少妇三区| 久久精品综合| 日韩一区高清| 大bbw大bbw巨大bbw看看| 久久一区二区三区欧美| 偷拍久久精品视频| 欧洲国产一区| 国产电影一区二区三区下载| 亚洲精品欧美精品日韩精品| 国产在线精品二区| 中文字幕天天躁日日躁狠狠躁免费| 男女视频一区二区三区| 久久99中文字幕| 偷拍自中文字av在线| 亚洲精品卡一卡二| 午夜看片在线| 色午夜影院| 亚洲福利视频一区| 性少妇freesexvideos高清bbw| 国产69精品久久久久9999不卡免费| 99久久国产综合精品色伊 | 国产99久久久国产精品免费看| 精品国精品国产自在久不卡| 亚洲自拍偷拍中文字幕| 日韩精品一区中文字幕| 久久精品色欧美aⅴ一区二区| 国产精品99在线播放| 日韩av在线资源| 国产精品乱战久久久| 最新国产一区二区| 二区三区免费视频| 欧美一区二区三区久久精品视| 91福利视频免费观看| 午夜一区二区三区在线观看| 国产精品视频久久| 野花社区不卡一卡二| 日韩国产不卡| 精品久久久影院| 久久婷婷国产综合一区二区| 精品国产一区二区在线| 国产精品1区二区| 国产一区二区三区网站| 亚洲激情中文字幕| 国产性猛交| 国产91在线拍偷自揄拍| 久久精品99国产精品亚洲最刺激| 久久国产精品-国产精品| 日本xxxxxxxxx68护士 | 久久精视频| 国产日韩欧美三级| 日韩av在线网| 午夜诱惑影院|