[發(fā)明專(zhuān)利]智能體信息交互對(duì)象確定方法、系統(tǒng)、電子設(shè)備及介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202310707964.9 | 申請(qǐng)日: | 2023-06-14 |
| 公開(kāi)(公告)號(hào): | CN116628359A | 公開(kāi)(公告)日: | 2023-08-22 |
| 發(fā)明(設(shè)計(jì))人: | 謝少榮;張瀚;駱祥峰;王欣芝 | 申請(qǐng)(專(zhuān)利權(quán))人: | 上海大學(xué) |
| 主分類(lèi)號(hào): | G06F16/9536 | 分類(lèi)號(hào): | G06F16/9536;G06N3/092;G06F16/9537 |
| 代理公司: | 北京高沃律師事務(wù)所 11569 | 代理人: | 王愛(ài)濤 |
| 地址: | 200444*** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 智能 信息 交互 對(duì)象 確定 方法 系統(tǒng) 電子設(shè)備 介質(zhì) | ||
1.一種智能體信息交互對(duì)象確定方法,其特征在于,包括:
獲取協(xié)作場(chǎng)景中目標(biāo)智能體的自身觀測(cè)信息和當(dāng)前非目標(biāo)智能體的位置信息;所述協(xié)作場(chǎng)景內(nèi)設(shè)置有多個(gè)智能體、多個(gè)動(dòng)態(tài)目標(biāo)和多個(gè)靜態(tài)障礙物;所述自身觀測(cè)信息包括目標(biāo)智能體的速度信息、目標(biāo)智能體的位置信息、目標(biāo)智能體局部感知范圍內(nèi)靜態(tài)障礙物的位置信息和目標(biāo)智能體局部感知范圍內(nèi)動(dòng)態(tài)目標(biāo)的位置信息;
根據(jù)所述目標(biāo)智能體的自身觀測(cè)信息和所述當(dāng)前非目標(biāo)智能體的位置信息,利用交互偏好網(wǎng)絡(luò),預(yù)測(cè)所述目標(biāo)智能體與所述非目標(biāo)智能體的交互概率和所述目標(biāo)智能體與所述當(dāng)前非目標(biāo)智能體的不交互概率;其中,所述交互偏好網(wǎng)絡(luò)是利用訓(xùn)練樣本集對(duì)交互偏好初始網(wǎng)絡(luò)進(jìn)行訓(xùn)練確定的;所述訓(xùn)練樣本集包括多個(gè)具有交互標(biāo)簽的訓(xùn)練樣本;所述訓(xùn)練樣本包括目標(biāo)智能體樣本的自身觀測(cè)信息和一個(gè)非目標(biāo)智能體樣本的位置信息;所述交互標(biāo)簽為1或0;1為選擇所述當(dāng)前非目標(biāo)智能體樣本作為所述目標(biāo)智能體樣本的交互對(duì)象;0為不選擇所述當(dāng)前非目標(biāo)智能體樣本作為所述目標(biāo)智能體樣本的交互對(duì)象;所述交互偏好初始網(wǎng)絡(luò)包括依次連接的第一全連接層、第二全連接層、第三全連接層和softmax層;
根據(jù)所述交互概率和所述不交互概率,確定所述目標(biāo)智能體的交互對(duì)象。
2.根據(jù)權(quán)利要求1所述的智能體信息交互對(duì)象確定方法,其特征在于,利用訓(xùn)練樣本集對(duì)交互偏好初始網(wǎng)絡(luò)進(jìn)行訓(xùn)練,具體包括:
獲取多個(gè)訓(xùn)練樣本;
對(duì)所述訓(xùn)練樣本標(biāo)注交互標(biāo)簽,構(gòu)建訓(xùn)練樣本集;
將所述訓(xùn)練樣本集中具有交互標(biāo)簽的訓(xùn)練樣本輸入至當(dāng)前交互偏好初始網(wǎng)絡(luò),確定目標(biāo)智能體樣本與非目標(biāo)智能體樣本的交互概率和目標(biāo)智能體樣本與非目標(biāo)智能體樣本的不交互概率;
計(jì)算所述目標(biāo)智能體樣本與非目標(biāo)智能體樣本的交互概率與樣本標(biāo)簽的損失值;
根據(jù)所述損失值更新所述當(dāng)前交互偏好初始網(wǎng)絡(luò)的參數(shù);
判斷當(dāng)前訓(xùn)練輪數(shù)是否大于最大訓(xùn)練輪數(shù),若是,則結(jié)束訓(xùn)練;若否,則返回“將所述訓(xùn)練樣本集中一批具有交互標(biāo)簽的訓(xùn)練樣本輸入至當(dāng)前交互偏好初始網(wǎng)絡(luò),確定目標(biāo)智能體樣本與非目標(biāo)智能體樣本的交互概率和目標(biāo)智能體樣本與非目標(biāo)智能體樣本的不交互概率”的步驟。
3.根據(jù)權(quán)利要求1所述的智能體信息交互對(duì)象確定方法,其特征在于,對(duì)所述訓(xùn)練樣本標(biāo)注交互標(biāo)簽,構(gòu)建訓(xùn)練樣本集,具體包括:
將所述訓(xùn)練樣本依次輸入至所述交互偏好初始網(wǎng)絡(luò)中,確定所述目標(biāo)智能體樣本的候選交互對(duì)象;
針對(duì)任一目標(biāo)智能體樣本:
接收的所述候選交互對(duì)象發(fā)送的第一交互信息,并根據(jù)所述目標(biāo)智能體樣本的自身觀測(cè)信息,確定待發(fā)送至將目標(biāo)智能體樣本選擇為候選交互對(duì)象的其他智能體的第二交互信息;
根據(jù)目標(biāo)智能體樣本的自身觀測(cè)信息和所述第一交互信息,確定當(dāng)前時(shí)刻選擇的動(dòng)作并執(zhí)行,得到執(zhí)行所述動(dòng)作后的協(xié)作場(chǎng)景;所述動(dòng)作為向前、向后、向左、向右或保持不動(dòng);
計(jì)算所述目標(biāo)智能體樣本選擇的動(dòng)作和所述候選交互對(duì)象選擇的動(dòng)作,確定動(dòng)作的softmax分布和邊緣分布;
根據(jù)所述softmax分布和所述邊緣分布,確定所述目標(biāo)智能體樣本和所述候選交互對(duì)象的交互偏好值;所述交互偏好值為所述softmax分布和所述邊緣分布的KL散度;
根據(jù)所述交互偏好值和預(yù)設(shè)偏好閾值,確定所述目標(biāo)智能體樣本和所述候選交互對(duì)象的交互標(biāo)簽,得到訓(xùn)練樣本集。
4.根據(jù)權(quán)利要求3所述的智能體信息交互對(duì)象確定方法,其特征在于,根據(jù)所述交互偏好值和預(yù)設(shè)偏好閾值,確定所述目標(biāo)智能體樣本和所述候選交互對(duì)象的交互標(biāo)簽,得到訓(xùn)練樣本集,具體包括:
判斷所述交互偏好值是否大于所述預(yù)設(shè)偏好閾值;
若是,則確定所述目標(biāo)智能體樣本和所述候選交互對(duì)象的交互標(biāo)簽為1;
若否,則確定所述目標(biāo)智能體樣本和所述候選交互對(duì)象的交互標(biāo)簽為0。
5.根據(jù)權(quán)利要求3所述的智能體信息交互對(duì)象確定方法,其特征在于,預(yù)設(shè)偏好閾值的確定,具體包括:
將所述目標(biāo)智能體樣本與每個(gè)候選交互對(duì)象的交互偏好值升序排序;
將排在預(yù)設(shè)分位數(shù)的交互偏好值作為預(yù)設(shè)偏好閾值。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于上海大學(xué),未經(jīng)上海大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310707964.9/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置
- 對(duì)象選擇裝置、對(duì)象選擇程序及對(duì)象選擇方法
- 對(duì)象顯示裝置、對(duì)象顯示系統(tǒng)以及對(duì)象顯示方法
- 對(duì)象顯示裝置、對(duì)象顯示方法和對(duì)象顯示程序
- 對(duì)象顯示裝置、對(duì)象顯示方法和對(duì)象顯示程序
- 對(duì)象顯示裝置、對(duì)象顯示方法和對(duì)象顯示程序
- 對(duì)象分析方法、對(duì)象分析設(shè)備及對(duì)象分析系統(tǒng)
- 對(duì)象索引方法、對(duì)象搜索方法及對(duì)象索引系統(tǒng)
- 對(duì)象分類(lèi)方法和對(duì)象分類(lèi)設(shè)備
- 對(duì)象庫(kù)中的對(duì)象簽名
- 對(duì)象追蹤方法、對(duì)象追蹤系統(tǒng)以及對(duì)象追蹤程序





