[發明專利]機器人視聽協同學習新目標的語音標簽自動生成方法有效
| 申請號: | 202010021821.9 | 申請日: | 2020-01-09 |
| 公開(公告)號: | CN110827351B | 公開(公告)日: | 2020-04-14 |
| 發明(設計)人: | 茍先太;陶明江;胡永佳;張葛祥 | 申請(專利權)人: | 西南交通大學 |
| 主分類號: | G06T7/70 | 分類號: | G06T7/70;G06T5/00;G06F40/284 |
| 代理公司: | 成都正華專利代理事務所(普通合伙) 51229 | 代理人: | 何凡 |
| 地址: | 610031 四*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 機器人 視聽 協同 學習 新目標 語音 標簽 自動 生成 方法 | ||
1.一種機器人視聽協同學習新目標的語音標簽自動生成方法,其特征在于,包括以下步驟:
S1:利用機器人攝像頭采集需學習新目標的圖像,并通過消噪和圖像增強對圖像進行預處理;
S2:采用對象定位模型,框選出預處理后的圖像上的所有對象,形成對象集Object={object_1、object_2、…、object_n},并標出每個對象框四個頂點的坐標作為對象的坐標;
S3:采用目標識別模型,識別對象集Object中的對象,得到每個對象的識別概率向量p(object_1)、p(object_2)、…、p(object_n);
S4:設定概率分布距離閾值K0,并計算每個概率向量p(object_1)、p(object_2)、…、p(object_n)的概率分布距離,將每個概率分布距離均與閾值K0進行比較;
S5:若概率分布距離小于K0,則該對象為新對象,并將所有的新對象組合成新對象集:Object_dknow={object_dkonw_1、object_dknow_2、…、object_dknow_n};
S6:若概率分布距離大于或等于閾值K0,則該對象為已知對象,并將所有的已知對象組合成已知對象集:Object_know={object_know_1、object_know_2、…、object_know_n};
S7:機器人的語音輸入模塊輸入所需識別的目標對象與已知對象之間的位置信息和顏色信息,并根據位置信息和顏色信息識別出新對象集Object_dknow中對應的新對象,作為目標新對象,包括:
S71:構建描述信息知識庫,存儲用于定位所有新對象在圖像中的位置信息和顏色信息關鍵詞的詞向量;
S72:語音輸入模塊輸入的所需識別的目標新對象的位置信息和顏色信息,并轉化成語音文本:
TextI={word1,word2,...,wordn}
其中,n為輸入的長度,wordn為語音文本中的單字;
S73:將語音文本中的單字按照詞語組成規則組成詞組集:
Textwords={words1,words2,...,wordsm}
其中,m為所組成的詞組序列的個數,wordsm為詞組;
S74:利用中文詞向量庫查找詞組集中的每一個詞組wordsm的詞向量word_vectorm,并輸入描述信息知識庫中;
S75:計算詞向量word_vectorm與描述信息知識庫中所有詞向量的相似度:
其中,函數cos(θ)為余弦相似度,(x1,y1)為詞向量word_vectorm,(x2,y2)為描述信息知識庫中某個詞向量;
S76:設定相似度閾值similarityi,將相似度大于相似度閾值similarityi的詞組wordsm標準化為描述信息知識庫中與之對應的標準位置關鍵詞和標準顏色關鍵詞;
S77:構建標準位置關鍵詞與坐標的映射:
標準位置關鍵詞→(k,(xmin,xmax))&&(l,(ymin,ymax))
其中,(k,l)為新對象集中某個新對象Odk_i的一個像素點在圖像坐標系中的坐標,xmin,xmax,ymin,ymax分別為已知對象A像素點的最小x值、最大x值、最小y值和最大y值;
S78:利用二分函數C(piexlt)判斷位置描述關鍵詞是否滿足該新對象Odk_i與已知對象的位置關系:
其中,1<t<(u×v),u和v分別為新對象Odk_i像素區域的長和寬,(u×v)為新對象Odk_i的所有像素點,wordlocation為標準位置關鍵詞,A為已知對象,piexlt為新對象Odk_i的像素點,{piexltis-wordlocationA}表示滿足位置關系,{piexltno-wordlocationA}表示不滿足位置關系;
S79:求解新對象Odk_i與已知對象的實際位置關系屬于位置描述關鍵詞所描述的位置關系的概率:
S710:重復步驟S77-S79,計算新對象集Object_dknow中的每個新對象的概率,最大概率所對應的新對象即為識別的目標新對象;
S8:利用機器人的顯示端顯示出所識別出的目標新對象在圖像中的位置,并根據顯示結果判斷所識別的目標新對象是否正確;
S9:若正確,則進入步驟S10,否則返回步驟S7,重新輸入目標對象與已知對象之間的位置信息和顏色信息;
S10:根據語音輸入模塊輸入識別的目標新對象的標簽信息文本,并利用標簽信息提取模型提取出目標新對象的標簽數據;
S11:將該目標新對象在步驟S2中標出的坐標和標簽數據寫入數據交換格式文件。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西南交通大學,未經西南交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010021821.9/1.html,轉載請聲明來源鉆瓜專利網。





