[發(fā)明專利]一種具有多智能體的神經(jīng)網(wǎng)絡(luò)提升收斂和訓練速度的方法在審
| 申請?zhí)枺?/td> | 202110192255.2 | 申請日: | 2021-02-20 |
| 公開(公告)號: | CN112819144A | 公開(公告)日: | 2021-05-18 |
| 發(fā)明(設(shè)計)人: | 陳晨 | 申請(專利權(quán))人: | 廈門吉比特網(wǎng)絡(luò)技術(shù)股份有限公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08;G06N20/00;A63F13/67 |
| 代理公司: | 廈門市新華專利商標代理有限公司 35203 | 代理人: | 羅恒蘭 |
| 地址: | 361004 福建省*** | 國省代碼: | 福建;35 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 具有 智能 神經(jīng)網(wǎng)絡(luò) 提升 收斂 訓練 速度 方法 | ||
本發(fā)明涉及一種具有多智能體的神經(jīng)網(wǎng)絡(luò)提升收斂和訓練速度的方法、裝置、可存儲介質(zhì),其對多智能體的獎勵做出了定向的獎勵/懲罰,對于多智能體任務(wù)下的單智能體來說,當前已經(jīng)作出最優(yōu)決策的智能體被鼓勵和保留,而作出錯誤決策的智能體被定向懲罰,不會影響到其他智能體的神經(jīng)網(wǎng)絡(luò)優(yōu)化過程。基于此,本發(fā)明中多智能體AI在反向傳播時,能夠清楚地得知出錯的智能體對象,從而在求導(dǎo)時只對這個對象做出懲罰,加快神經(jīng)網(wǎng)絡(luò)的收斂和訓練速度,從而進一步提升多智能體AI的效果。
技術(shù)領(lǐng)域
本發(fā)明涉及人工智能強化學習技術(shù)領(lǐng)域,具體涉及一種具有多智能體的神經(jīng)網(wǎng)絡(luò)提升收斂和訓練速度的方法。
背景技術(shù)
如圖1所示,強化學習是智能體(Agent)以“試錯”的方式進行學習,通過與環(huán)境進行交互獲得的獎賞指導(dǎo)行為,目標是使智能體獲得最大的獎賞,強化學習不同于連接主義學習中的監(jiān)督學習,主要表現(xiàn)在強化信號上,強化學習中由環(huán)境提供的強化信號是對產(chǎn)生動作的好壞作一種評價,而不是告訴強化學習系統(tǒng)RLS(reinforcement learning system)如何去產(chǎn)生正確的動作。由于外部環(huán)境提供的信息很少,RLS必須靠自身的經(jīng)歷進行學習。通過這種方式,RLS在行動-評價的環(huán)境中獲得知識,改進行動方案以適應(yīng)環(huán)境。
如果智能體的某個行為策略導(dǎo)致環(huán)境正的獎賞(強化信號),那么智能體以后產(chǎn)生這個行為策略的趨勢便會加強。智能體的目標是在每個離散狀態(tài)發(fā)現(xiàn)最優(yōu)策略以使期望的折扣獎賞和最大。強化學習把學習看作試探評價過程,智能體選擇一個動作用于環(huán)境,環(huán)境接受該動作后狀態(tài)發(fā)生變化,同時產(chǎn)生一個強化信號(獎或懲)反饋給智能體,智能體根據(jù)強化信號和環(huán)境當前狀態(tài)再選擇下一個動作,選擇的原則是使受到正強化(獎)的概率增大。選擇的動作不僅影響及時的強化信號,而且影響環(huán)境下一時刻的狀態(tài)及最終的強化信號。強化學習系統(tǒng)學習的目標是動態(tài)地調(diào)整參數(shù),以達到強化信號最大。例如,在圍棋的人工智能訓練中,人工智能AI如果落子到已經(jīng)存在棋子的位置上,需要對該動作策略做出懲罰,從而引導(dǎo)AI進行優(yōu)化。(本發(fā)明將正面得分叫作獎勵、負面扣分叫作懲罰。)
在強化學習的人工智能訓練中,存在多智能體的獎勵(Reward)設(shè)定問題。如圖2所示,在處理多智能體的技術(shù)方案中,是對多智能體AI整體求取獎勵(Reward),從而依據(jù)這個獎懲值進一步去做反向傳播來優(yōu)化神經(jīng)網(wǎng)絡(luò)。多智能體問題下統(tǒng)一求取獎勵,缺點就在于多智能體優(yōu)化時,其實并不知道哪個智能體做得更好、哪個智能體做得更差,從而引導(dǎo)多智能體AI做出更有效的優(yōu)化。因為這個缺點,將導(dǎo)致多智能體AI在優(yōu)化時不允許單個智能體做出比較脫離團隊收益的指令,從而影響了多智能體AI探索出最佳策略的可能性,失去了很多訓練出奇策的機會。
例如,在回合制游戲中,多智能體AI操作的是一整個隊伍的角色。回合制游戲如擁有戰(zhàn)爭迷霧的游戲中,多智能體AI扮演一個隊伍的玩家,每個玩家因為各自不同的視角,觀測到不同的迷霧狀態(tài),多智能體AI將狀態(tài)拼湊成全局的信息,從而進一步作出決策,讓每個玩家去分別執(zhí)行不同的指令。假如這個隊伍里有多個待操作角色,那么他們作出的錯誤指令,需要傳遞給多智能體AI作出懲罰。問題是AI的獎勵設(shè)置,依據(jù)現(xiàn)存技術(shù)均是共享一個獎勵Reward,即多個待操作角色榮辱與共,一角色出錯全隊受罰,即便是全隊只有一個角色出錯,依舊會對Reward做出懲罰(當然懲罰會比全隊出錯更低一些)。
有鑒于此,本發(fā)明人針對上述存在的問題進行深入構(gòu)思,遂產(chǎn)生本案。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種具有多智能體的神經(jīng)網(wǎng)絡(luò)提升收斂和訓練速度的方法,其通過定向獎勵/懲罰來加快神經(jīng)網(wǎng)絡(luò)的收斂和訓練速度。
為實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案是:
一種具有多智能體的神經(jīng)網(wǎng)絡(luò)提升收斂和訓練速度的方法,所述方法基于多智能體系統(tǒng)實現(xiàn),所述多智能體系統(tǒng)包括多智能體總控和N個智能體,每一智能體的反饋中設(shè)有埋點,用于判斷智能體的指令是否有誤,是否作出優(yōu)秀決策;所述方法具體如下:
輸入狀態(tài)信息,將當前的狀態(tài)信息傳遞給N個智能體;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廈門吉比特網(wǎng)絡(luò)技術(shù)股份有限公司,未經(jīng)廈門吉比特網(wǎng)絡(luò)技術(shù)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110192255.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 硬件神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法、計算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡(luò)
- 神經(jīng)網(wǎng)絡(luò)的生成方法、生成裝置和電子設(shè)備
- 一種舌診方法、裝置、計算設(shè)備及計算機存儲介質(zhì)
- 學習神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
- 脈沖神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法及相關(guān)轉(zhuǎn)換芯片
- 圖像處理方法、裝置、可讀存儲介質(zhì)和計算機設(shè)備
- 一種適應(yīng)目標數(shù)據(jù)集的網(wǎng)絡(luò)模型微調(diào)方法、系統(tǒng)、終端和存儲介質(zhì)
- 用于重構(gòu)人工神經(jīng)網(wǎng)絡(luò)的處理器及其操作方法、電氣設(shè)備
- 一種圖像神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化方法及裝置





