[發明專利]樣本圖片的標簽修正方法、裝置、設備和存儲介質在審
| 申請號: | 202010160481.8 | 申請日: | 2020-03-10 |
| 公開(公告)號: | CN111382798A | 公開(公告)日: | 2020-07-07 |
| 發明(設計)人: | 周康明;馮曉銳 | 申請(專利權)人: | 上海眼控科技股份有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06K9/34 |
| 代理公司: | 廣州華進聯合專利商標代理有限公司 44224 | 代理人: | 黃恕 |
| 地址: | 200030 上海市徐匯*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 樣本 圖片 標簽 修正 方法 裝置 設備 存儲 介質 | ||
1.一種樣本圖片的標簽修正方法,其特征在于,所述方法包括:
獲取圖片樣本集;所述圖片樣本集包括訓練圖片和所述訓練圖片對應的標注文本標簽;
檢測所述訓練圖片對應的標注文本標簽是否為異常文本標簽;
若是,則采用預設的標簽修正模型對所述異常文本標簽進行修正,得到所述異常文本標簽對應的修正文本標簽;所述標簽修正模型是基于標簽樣本集進行訓練得到的,所述標簽樣本集包括異常文本標簽和所述異常文本標簽對應的標注修正文本標簽。
2.根據權利要求1所述的方法,其特征在于,在所述獲取圖片樣本集之后,所述方法還包括:
利用所述圖片樣本集和初始文本識別模型,得到所述訓練圖片數據對應的預測文本標簽;
相應的,所述檢測所述訓練圖片對應的標注文本標簽是否為異常文本標簽,包括:
檢測所述預測文本標簽對應的標注文本標簽是否為異常文本標簽。
3.根據權利要求2所述的方法,其特征在于,若所述預測文本標簽對應的標注文本標簽是異常文本標簽,所述方法還包括:
計算所述異常文本標簽對應的修正文本標簽和所述預測文本標簽之間的第一損失;
將所述第一損失和預設的第一損失閾值進行對比;
若所述第一損失大于所述預設的第一損失閾值,則將所述第一損失乘以預設的權重,并根據得到的損失對所述初始文本識別模型進行訓練,得到所述文本識別模型;或者,若所述第一損失不大于所述預設的第一損失閾值,則根據所述第一損失對所述初始文本識別模型進行訓練,得到所述文本識別模型。
4.根據權利要求2所述的方法,其特征在于,所述檢測所述訓練圖片對應的標注文本標簽是否為異常文本標簽,包括:
計算所述預測文本標簽和所述預測文本標簽對應的標注文本標簽之間的第二損失;
將所述第二損失和預設的第二損失閾值進行對比;
若所述第二損失大于所述預設的第二損失閾值,則將所述預測文本標簽對應的訓練圖片輸入至預設的分類器中進行分類,得到所述訓練圖片對應的圖片質量類別;其中,所述預設的分類器是基于第一圖片樣本集訓練得到的,所述第一圖片樣本集包括第一訓練圖片和所述第一訓練圖片對應的標注圖片質量類別;
根據所述訓練圖片對應的圖片質量類別,確定所述預測文本標簽對應的標注文本標簽是否為異常文本標簽。
5.根據權利要求1-4任意一項所述的方法,其特征在于,所述標簽修正模型的訓練方法包括:
對所述異常樣本標簽進行編碼處理,得到所述異常樣本標簽對應的訓練向量;
將所述訓練向量輸入至初始標簽修正模型中,得到所述訓練向量對應的預測修正文本標簽;
根據所述預測修正文本標簽和所述標注修正文本標簽對所述初始標簽修正模型進行訓練,得到所述標簽修正模型。
6.根據權利要求5所述的方法,其特征在于,所述標簽修正模型包括長短期記憶網絡和條件隨機場網絡,所述將所述訓練向量輸入至初始標簽修正模型中,得到所述訓練向量對應的預測修正文本標簽,包括:
將所述訓練向量輸入至初始長短期記憶網絡進行特征提取和分類,得到所述訓練向量對應的初始標簽預測結果;
將所述訓練向量對應的初始標簽預測結果輸入至初始條件隨機場網絡中進行語義分析處理,得到所述訓練向量對應的預測修正文本標簽。
7.根據權利要求5所述的方法,其特征在于,所述對所述異常樣本標簽進行編碼處理,得到所述異常樣本標簽對應的訓練向量,包括:
對所述異常樣本標簽的每個字符進行編碼處理,得到所述異常樣本標簽的每個字符對應的字符向量;
將所述異常樣本標簽的每個字符向量進行拼接,得到所述訓練向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海眼控科技股份有限公司,未經上海眼控科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010160481.8/1.html,轉載請聲明來源鉆瓜專利網。





