[發明專利]自動生成用于對象識別的訓練數據集在審
| 申請號: | 201880092391.0 | 申請日: | 2018-12-12 |
| 公開(公告)號: | CN111971686A | 公開(公告)日: | 2020-11-20 |
| 發明(設計)人: | 崔德華;A·塔姆比拉納姆;鐘鳴;張文輝 | 申請(專利權)人: | 微軟技術許可有限責任公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 永新專利商標代理有限公司 72002 | 代理人: | 賈麗萍 |
| 地址: | 美國華*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 自動 生成 用于 對象 識別 訓練 數據 | ||
1.一種用于自動生成用于對象識別的訓練數據集的方法,包括:
獲得多個對象的簡檔信息;以及
針對所述多個對象中的每個對象:
基于所述對象的簡檔信息中包括的所述對象的身份信息,收集與所述對象相關聯的初始圖像組,
對所述初始圖像組進行過濾以獲得與所述對象相關聯的經過濾的圖像組,
通過用所述對象的所述身份信息來標記所述經過濾的圖像組中的每個圖像,生成與所述對象相對應的訓練數據對組,以及
將所述訓練數據對組添加到所述訓練數據集中。
2.根據權利要求1所述的方法,其中,所述多個對象的所述簡檔信息是從預先建立的知識圖譜獲得的。
3.根據權利要求1所述的方法,其中,所述多個對象的所述簡檔信息是從網絡上的一個或多個信息源獲得的。
4.根據權利要求1所述的方法,其中,所述收集包括:
通過搜索引擎在網絡上搜索與所述對象相關聯的初始圖像。
5.根據權利要求1所述的方法,其中,所述收集包括:
從至少一個網頁識別與所述對象相關聯的初始圖像。
6.根據權利要求5所述的方法,其中,所述識別包括:
通過命名實體提取算法確定所述至少一個網頁是否包括與所述對象相對應的至少一個命名實體;
從所述至少一個網頁中提取候選圖像;
計算所述候選圖像與所述對象的所述簡檔信息中的簡檔圖像之間的相關性;以及
如果所述相關性滿足預先確定的標準,則將所述候選圖像確定為與所述對象相關聯的初始圖像。
7.根據權利要求1所述的方法,其中,所述過濾包括:
從所述初始圖像組中濾除噪聲圖像。
8.根據權利要求7所述的方法,其中,所述濾除包括:對于所述初始圖像組中的每個初始圖像:
計算下列各項中的至少一項:所述對象的所述簡檔信息中包括的所述對象的簡檔圖像與所述初始圖像之間的第一相關性;以及所述對象的所述身份信息與所述初始圖像的描述信息之間的第二相關性;以及
如果所述第一相關性和/或所述第二相關性不滿足預先確定的標準,則將所述初始圖像確定為噪聲圖像并從所述初始圖像組中移除所述初始圖像。
9.根據權利要求7所述的方法,其中,所述濾除包括:
對所述初始圖像組執行聚類過程以識別至少一個離群圖像;以及
將所述至少一個離群圖像確定為噪聲圖像,并從所述初始圖像組中移除所述至少一個離群圖像。
10.根據權利要求1所述的方法,還包括:
計算與所述對象相關聯的所述經過濾的圖像組和與所述多個對象中的另一個對象相關聯的另一個經過濾的圖像組之間的相關性;以及
如果所述相關性滿足預先確定的標準,則將所述對象的所述身份信息與所述另一個對象的身份信息組合成組合的身份信息,并將所述經過濾的圖像組和所述另一個經過濾的圖像組組合成組合的經過濾的圖像組。
11.根據權利要求10所述的方法,其中,所述生成包括:
通過用所述組合的身份信息來標記所述組合的經過濾的圖像組中的每個圖像,生成與所述對象相對應的所述訓練數據對組。
12.根據權利要求1所述的方法,其中,所述過濾包括:
分別生成與所述初始圖像組相對應的圖像向量組;以及
至少基于所述圖像向量組來對所述初始圖像組進行過濾。
13.根據權利要求12所述的方法,其中,所述圖像向量組是通過對象識別模型生成的。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于微軟技術許可有限責任公司,未經微軟技術許可有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201880092391.0/1.html,轉載請聲明來源鉆瓜專利網。





