[發(fā)明專利]智能體強(qiáng)化學(xué)習(xí)方法、裝置、設(shè)備及介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 201810849877.6 | 申請(qǐng)日: | 2018-07-28 |
| 公開(公告)號(hào): | CN109190720B | 公開(公告)日: | 2021-08-06 |
| 發(fā)明(設(shè)計(jì))人: | 劉春曉;薛洋;張偉;林倞 | 申請(qǐng)(專利權(quán))人: | 深圳市商湯科技有限公司 |
| 主分類號(hào): | G06K9/66 | 分類號(hào): | G06K9/66;G06K9/00;G06N3/04 |
| 代理公司: | 北京思源智匯知識(shí)產(chǎn)權(quán)代理有限公司 11657 | 代理人: | 毛麗琴 |
| 地址: | 518000 廣東省深圳市*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 智能 強(qiáng)化 學(xué)習(xí)方法 裝置 設(shè)備 介質(zhì) | ||
本申請(qǐng)的實(shí)施方式公開了一種智能體強(qiáng)化學(xué)習(xí)方法、裝置、電子設(shè)備、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)以及計(jì)算機(jī)程序,其中的方法包括:獲取智能體針對(duì)當(dāng)前環(huán)境圖像進(jìn)行決策所依據(jù)的關(guān)鍵視覺(jué)信息;獲取所述當(dāng)前環(huán)境圖像的實(shí)際關(guān)鍵視覺(jué)信息;根據(jù)所述所依據(jù)的關(guān)鍵視覺(jué)信息以及所述實(shí)際關(guān)鍵視覺(jué)信息,確定注意力變化回報(bào)信息;根據(jù)所述注意力變化回報(bào)信息調(diào)整智能體強(qiáng)化學(xué)習(xí)的回報(bào)反饋。
技術(shù)領(lǐng)域
本申請(qǐng)涉及計(jì)算機(jī)視覺(jué)技術(shù),尤其是涉及一種智能體強(qiáng)化學(xué)習(xí)方法、智能體強(qiáng)化學(xué)習(xí)裝置、電子設(shè)備、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)以及計(jì)算機(jī)程序。
背景技術(shù)
在游戲以及機(jī)器人等諸多技術(shù)領(lǐng)域,通常會(huì)使用到智能體,例如,游戲中的接檔下落小球的移動(dòng)板或者機(jī)器臂等。智能體在強(qiáng)化學(xué)習(xí)過(guò)程中,通常是利用在環(huán)境中試錯(cuò)得到的獎(jiǎng)賞信息,來(lái)指導(dǎo)學(xué)習(xí)的。
如何提高強(qiáng)化學(xué)習(xí)后的智能體的行為安全性,是強(qiáng)化學(xué)習(xí)中的一個(gè)重要的技術(shù)問(wèn)題。
發(fā)明內(nèi)容
本申請(qǐng)實(shí)施方式提供一種智能體強(qiáng)化學(xué)習(xí)的技術(shù)方案。
根據(jù)本申請(qǐng)實(shí)施方式其中一方面,提供一種智能體強(qiáng)化學(xué)習(xí)方法,所述方法包括:獲取智能體針對(duì)當(dāng)前環(huán)境圖像進(jìn)行決策所依據(jù)的關(guān)鍵視覺(jué)信息;獲取所述當(dāng)前環(huán)境圖像的實(shí)際關(guān)鍵視覺(jué)信息;根據(jù)所述所依據(jù)的關(guān)鍵視覺(jué)信息以及所述實(shí)際關(guān)鍵視覺(jué)信息,確定注意力變化回報(bào)信息;根據(jù)所述注意力變化回報(bào)信息調(diào)整智能體強(qiáng)化學(xué)習(xí)的回報(bào)反饋。
在本申請(qǐng)一實(shí)施方式中,所述所依據(jù)的關(guān)鍵視覺(jué)信息包括:智能體在做出決策時(shí),針對(duì)當(dāng)前環(huán)境圖像的注意力區(qū)域。
在本申請(qǐng)又一實(shí)施方式中,所述獲取智能體針對(duì)當(dāng)前環(huán)境圖像進(jìn)行決策所依據(jù)的關(guān)鍵視覺(jué)信息包括:獲取智能體針對(duì)當(dāng)前環(huán)境圖像的價(jià)值注意力圖;對(duì)所述價(jià)值注意力圖和所述當(dāng)前環(huán)境圖像進(jìn)行合成處理,獲得熱力圖;根據(jù)所述熱力圖確定所述智能體針對(duì)當(dāng)前環(huán)境圖像的注意力區(qū)域。
在本申請(qǐng)?jiān)僖粚?shí)施方式中,所述獲取智能體針對(duì)當(dāng)前環(huán)境圖像的價(jià)值注意力圖包括:獲取當(dāng)前環(huán)境圖像的特征圖;根據(jù)所述特征圖獲得依次屏蔽所述特征圖各通道而形成的各改變特征圖;獲取所述各改變特征圖分別相對(duì)于所述特征圖的狀態(tài)價(jià)值改變量;根據(jù)各狀態(tài)價(jià)值改變量以及各改變特征圖形成所述價(jià)值注意力圖。
在本申請(qǐng)?jiān)僖粚?shí)施方式中,所述獲取當(dāng)前環(huán)境圖像的特征圖包括:將所述當(dāng)前環(huán)境圖像輸入卷積神經(jīng)網(wǎng)絡(luò),并獲取卷積神經(jīng)網(wǎng)絡(luò)的最后一層卷積層輸出的特征圖。
在本申請(qǐng)?jiān)僖粚?shí)施方式中,所述獲取所述各改變特征圖分別相對(duì)于所述特征圖的狀態(tài)價(jià)值改變量包括:將各改變特征圖輸入智能體的價(jià)值網(wǎng)絡(luò),以獲得各改變特征圖的狀態(tài)價(jià)值;計(jì)算所述價(jià)值網(wǎng)絡(luò)針對(duì)所述特征圖輸出的狀態(tài)價(jià)值,分別與所述各改變特征圖的狀態(tài)價(jià)值的差值,以獲得各改變特征圖分別相對(duì)于所述特征圖的狀態(tài)價(jià)值改變量。
在本申請(qǐng)?jiān)僖粚?shí)施方式中,所述當(dāng)前環(huán)境圖像的實(shí)際關(guān)鍵視覺(jué)信息包括:當(dāng)前環(huán)境圖像中的目標(biāo)對(duì)象所在區(qū)域。
在本申請(qǐng)?jiān)僖粚?shí)施方式中,所述根據(jù)所述所依據(jù)的關(guān)鍵視覺(jué)信息以及所述實(shí)際關(guān)鍵視覺(jué)信息,確定注意力變化回報(bào)信息包括:根據(jù)智能體在做出決策時(shí),針對(duì)當(dāng)前環(huán)境圖像的注意力區(qū)域,與所述目標(biāo)對(duì)象所在區(qū)域的交集與目標(biāo)對(duì)象所在區(qū)域的比值,確定注意力變化回報(bào)信息。
在本申請(qǐng)?jiān)僖粚?shí)施方式中,所述智能體強(qiáng)化學(xué)習(xí)的回報(bào)反饋包括:注意力變化回報(bào)信息以及智能體針對(duì)當(dāng)前環(huán)境圖像進(jìn)行決策所形成的回報(bào)信息。
在本申請(qǐng)?jiān)僖粚?shí)施方式中,所述方法還包括:根據(jù)所述所依據(jù)的關(guān)鍵視覺(jué)信息,確定環(huán)境探索周期內(nèi)的探索程度;在判斷出所述探索程度不符合預(yù)定探索程度的情況下,利用存儲(chǔ)的歷史訓(xùn)練數(shù)據(jù)進(jìn)行經(jīng)驗(yàn)回放;所述歷史訓(xùn)練數(shù)據(jù)包括:利用預(yù)設(shè)要求對(duì)采樣的強(qiáng)化學(xué)習(xí)訓(xùn)練數(shù)據(jù)進(jìn)行篩選,而獲得的訓(xùn)練數(shù)據(jù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳市商湯科技有限公司,未經(jīng)深圳市商湯科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810849877.6/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 上一篇:支持向量機(jī)學(xué)習(xí)方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 下一篇:緊固件識(shí)別方法、系統(tǒng)及電子設(shè)備
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 數(shù)字學(xué)習(xí)方法及執(zhí)行此數(shù)字學(xué)習(xí)方法的攜帶式電子裝置
- 一種響應(yīng)式教學(xué)設(shè)計(jì)方法及系統(tǒng)
- 一種神經(jīng)網(wǎng)絡(luò)及該神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法
- 一種高光譜遙感影像目標(biāo)探測(cè)方法
- 一種八維學(xué)習(xí)方法
- 一種自適應(yīng)學(xué)習(xí)特征及其張量分解式分享學(xué)習(xí)方法
- 生成模型學(xué)習(xí)方法、生成模型學(xué)習(xí)裝置及程序
- 一種高精度定位系統(tǒng)及方法
- 學(xué)習(xí)方法、管理裝置和記錄介質(zhì)
- 一種基于圖像屬性特征表述的少樣本學(xué)習(xí)方法





