[發(fā)明專利]選擇對(duì)應(yīng)于當(dāng)前狀態(tài)的動(dòng)作的神經(jīng)網(wǎng)絡(luò)設(shè)備及其方法在審
| 申請(qǐng)?zhí)枺?/td> | 202010411270.7 | 申請(qǐng)日: | 2020-05-15 |
| 公開(公告)號(hào): | CN112200309A | 公開(公告)日: | 2021-01-08 |
| 發(fā)明(設(shè)計(jì))人: | 吳成會(huì);崔潤鎬;李炅宰 | 申請(qǐng)(專利權(quán))人: | 三星電子株式會(huì)社;首爾大學(xué)校產(chǎn)學(xué)協(xié)力團(tuán) |
| 主分類號(hào): | G06N3/063 | 分類號(hào): | G06N3/063;G06N3/04;G06N3/08 |
| 代理公司: | 北京市柳沈律師事務(wù)所 11105 | 代理人: | 邵亞麗 |
| 地址: | 韓國*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 選擇 對(duì)應(yīng) 當(dāng)前 狀態(tài) 動(dòng)作 神經(jīng) 網(wǎng)絡(luò)設(shè)備 及其 方法 | ||
1.一種基于深度學(xué)習(xí)來選擇動(dòng)作的方法,由包括神經(jīng)網(wǎng)絡(luò)設(shè)備的設(shè)備執(zhí)行,所述方法包括:
由所述神經(jīng)網(wǎng)絡(luò)設(shè)備接收當(dāng)前狀態(tài)作為輸入;
由所述神經(jīng)網(wǎng)絡(luò)設(shè)備計(jì)算與要對(duì)所述當(dāng)前狀態(tài)執(zhí)行的多個(gè)動(dòng)作中的每一個(gè)動(dòng)作相對(duì)應(yīng)的值分布;以及
由所述神經(jīng)網(wǎng)絡(luò)設(shè)備基于所述值分布從所述多個(gè)動(dòng)作當(dāng)中選擇動(dòng)作,
其中,所述值分布包括遵循高斯分布的至少一個(gè)高斯圖。
2.根據(jù)權(quán)利要求1所述的方法,其中,計(jì)算所述值分布包括通過使用值分布網(wǎng)絡(luò)來計(jì)算所述至少一個(gè)高斯圖,
所述值分布網(wǎng)絡(luò)包括分布神經(jīng)網(wǎng)絡(luò),所述分布神經(jīng)網(wǎng)絡(luò)被配置為輸出定義每個(gè)當(dāng)前狀態(tài)-動(dòng)作對(duì)可能的值返回的概率分布的多個(gè)網(wǎng)絡(luò)參數(shù),以及
所述值返回包括作為對(duì)所述當(dāng)前狀態(tài)執(zhí)行的每個(gè)動(dòng)作的結(jié)果而獲得的值的估計(jì)值。
3.根據(jù)權(quán)利要求2所述的方法,其中,所述多個(gè)網(wǎng)絡(luò)參數(shù)包括所述至少一個(gè)高斯圖中的每一個(gè)高斯圖的概率權(quán)重、值平均和值標(biāo)準(zhǔn)差中的至少一個(gè)。
4.根據(jù)權(quán)利要求1所述的方法,其中,所述值分布包括重疊第一高斯圖、第二高斯圖和第三高斯圖的曲線圖,計(jì)算所述值分布包括:
由所述神經(jīng)網(wǎng)絡(luò)設(shè)備通過使用值分布網(wǎng)絡(luò)來計(jì)算所述第一高斯圖的第一概率權(quán)重、第一值平均和第一值標(biāo)準(zhǔn)差;
由所述神經(jīng)網(wǎng)絡(luò)設(shè)備通過使用所述值分布網(wǎng)絡(luò)來計(jì)算所述第二高斯圖的第二概率權(quán)重、第二值平均和第二值標(biāo)準(zhǔn)差;
由所述神經(jīng)網(wǎng)絡(luò)設(shè)備通過使用所述值分布網(wǎng)絡(luò)來計(jì)算所述第三高斯圖的第三概率權(quán)重、第三值平均和第三值標(biāo)準(zhǔn)差;以及
由所述神經(jīng)網(wǎng)絡(luò)設(shè)備基于計(jì)算結(jié)果通過允許所述第一高斯圖、所述第二高斯圖和所述第三高斯圖彼此重疊來生成所述值分布。
5.根據(jù)權(quán)利要求1所述的方法,其中,計(jì)算所述值分布包括:
由所述神經(jīng)網(wǎng)絡(luò)設(shè)備接收用于生成所述值分布的高斯圖的數(shù)量;
由所述神經(jīng)網(wǎng)絡(luò)設(shè)備基于高斯圖的數(shù)量通過使用值分布網(wǎng)絡(luò)來計(jì)算多個(gè)高斯圖;以及
由所述神經(jīng)網(wǎng)絡(luò)設(shè)備通過重疊所計(jì)算的多個(gè)高斯圖來生成所述值分布。
6.根據(jù)權(quán)利要求1所述的方法,其中,選擇所述動(dòng)作包括:
由所述神經(jīng)網(wǎng)絡(luò)設(shè)備計(jì)算分別與所述多個(gè)動(dòng)作相對(duì)應(yīng)的值分布中的每一個(gè)值分布的平均值;以及
由所述神經(jīng)網(wǎng)絡(luò)設(shè)備確定與平均值最大的值分布相對(duì)應(yīng)的動(dòng)作作為最優(yōu)動(dòng)作,
選擇所述最優(yōu)動(dòng)作作為所選擇的選項(xiàng)。
7.根據(jù)權(quán)利要求1所述的方法,其中,計(jì)算所述值分布包括:
由所述神經(jīng)網(wǎng)絡(luò)設(shè)備通過使用權(quán)重內(nèi)核對(duì)與所述當(dāng)前狀態(tài)相對(duì)應(yīng)的輸入特征圖執(zhí)行卷積運(yùn)算;以及
由所述神經(jīng)網(wǎng)絡(luò)設(shè)備基于所述多個(gè)動(dòng)作中的每一個(gè)和通過所述卷積運(yùn)算的結(jié)果生成的輸出特征圖的元素之間的全連接來生成多個(gè)高斯圖。
8.根據(jù)權(quán)利要求7所述的方法,還包括設(shè)置所述權(quán)重內(nèi)核,以用于最小化與所述當(dāng)前狀態(tài)相對(duì)應(yīng)的第一值分布和與所述當(dāng)前狀態(tài)的計(jì)算值相對(duì)應(yīng)的第二值分布之間的距離差。
9.根據(jù)權(quán)利要求8所述的方法,其中,所述第一值分布包括與所述當(dāng)前狀態(tài)的值返回相對(duì)應(yīng)的多個(gè)第一高斯圖,以及
所述第二值分布包括與所述當(dāng)前狀態(tài)的下一狀態(tài)的值返回和所述多個(gè)動(dòng)作的值返回的總和相對(duì)應(yīng)的多個(gè)第二高斯圖。
10.根據(jù)權(quán)利要求9所述的方法,其中,設(shè)置所述權(quán)重內(nèi)核包括:
基于距離計(jì)算等式來計(jì)算所述多個(gè)第一高斯圖和所述多個(gè)第二高斯圖之間的距離;以及
確定用于最小化所述距離的權(quán)重內(nèi)核。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于三星電子株式會(huì)社;首爾大學(xué)校產(chǎn)學(xué)協(xié)力團(tuán),未經(jīng)三星電子株式會(huì)社;首爾大學(xué)校產(chǎn)學(xué)協(xié)力團(tuán)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010411270.7/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 車輛當(dāng)前位置監(jiān)視方法和裝置及車輛當(dāng)前位置發(fā)送裝置
- 寬松當(dāng)前性約束
- 陸上汽車的當(dāng)前橫擺角及當(dāng)前側(cè)滑角的測定
- 當(dāng)前視窗關(guān)閉裝置及方法
- 當(dāng)前設(shè)備定位廣告分發(fā)
- 飛機(jī)當(dāng)前位置預(yù)估方法
- 根據(jù)相關(guān)網(wǎng)頁和當(dāng)前行為確定用戶當(dāng)前興趣的方法和系統(tǒng)
- 電子地圖的當(dāng)前位置表達(dá)方法及當(dāng)前位置表達(dá)裝置
- 當(dāng)前地毯類型辨識(shí)方法
- 當(dāng)前地毯類型辨識(shí)系統(tǒng)
- 狀態(tài)檢測裝置及狀態(tài)檢測方法
- 狀態(tài)估計(jì)裝置以及狀態(tài)估計(jì)方法
- 經(jīng)由次級(jí)狀態(tài)推斷管理狀態(tài)
- 狀態(tài)估計(jì)裝置及狀態(tài)估計(jì)方法
- 狀態(tài)估計(jì)裝置、狀態(tài)估計(jì)方法
- 狀態(tài)預(yù)測裝置以及狀態(tài)預(yù)測方法
- 狀態(tài)推定裝置、狀態(tài)推定方法和狀態(tài)推定程序
- 狀態(tài)檢測系統(tǒng)及狀態(tài)檢測方法
- 狀態(tài)判定裝置、狀態(tài)判定方法以及狀態(tài)判定程序
- 狀態(tài)判斷裝置以及狀態(tài)判斷方法





