[發明專利]一種訓練樣本標注方法、裝置、設備及介質在審
| 申請號: | 201910329181.5 | 申請日: | 2019-04-23 |
| 公開(公告)號: | CN110059828A | 公開(公告)日: | 2019-07-26 |
| 發明(設計)人: | 陳鑫;趙明 | 申請(專利權)人: | 杭州智趣智能信息技術有限公司 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 羅滿 |
| 地址: | 310000 浙江省杭州市濱*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 訓練樣本 目標訓練樣本 結構類型 標注 內容識別 標注裝置 結果標注 內容一致 人工成本 全面性 迭代 補充 保證 | ||
本發明公開了一種訓練樣本標注方法、裝置、設備及介質,該方法的步驟包括:通過多種結構類型的識別模型分別對目標訓練樣本進行內容識別,獲取相應的識別結果;當各識別結果的內容一致時,以識別結果標注目標訓練樣本。本方法通過具有不同結構類型的識別模型共同對目標訓練樣本進行內容識別,以此達到多種結構類型識別模型的識別效果相互迭代的效果,因此各結構類型的識別模型之間能夠相互補充對目標訓練樣本的識別全面性以及準確性,相對降低了標注訓練樣本的整體人工成本,并相對保證了對訓練樣本的標注效率。此外,本發明還提供一種訓練樣本標注裝置、設備及介質,有益效果同上所述。
技術領域
本發明涉及深度學習領域,特別是涉及一種訓練樣本標注方法、裝置、設備及介質。
背景技術
深度學習是機器學習研究中的一個新的領域,其動機在于建立、模擬人腦進行分析學習的神經網絡,它模仿人腦的機制來解釋數據,例如圖像,聲音和文本,識別模型是深度學習的階段性成果,識別模型能夠類型于人腦,具有辨別所學內容的能力。
當前對深度學習網絡進行數據樣本訓練,以生成識別模型的過程,首先需要技術人員對訓練樣本進行標注,以此明確訓練樣本中的實際內容,進而將訓練樣本輸入深度學習網絡進行識別,并通過不斷修改深度學習網絡中的參數,逐漸增加深度學習網絡對訓練樣本的識別準確性,當識別準確率達到一定的范圍時,則可認為深度學習網絡轉化為識別模型。但是在真實的應用場景中,由于用戶對于識別模型的識別準確性要求較高,因此在識別模型的訓練過程中需要輸入海量的數據樣本,并且在訓練海量的數據樣本之前,需要技術人員逐一對數據樣本進行內容的標注,因此大大增加了標注訓練樣本的人工成本并且難以確保對訓練樣本的標注效率。
由此可見,提供一種訓練樣本標注方法,以相對降低標注訓練樣本的整體人工成本,并相對保證訓練樣本的標注效率,是本領域技術人員需要解決的問題。
發明內容
本發明的目的是提供一種訓練樣本標注方法、裝置、設備及介質,以相對降低標注訓練樣本的整體人工成本,并相對保證訓練樣本的標注效率。
為解決上述技術問題,本發明提供一種訓練樣本標注方法,包括:
通過多種結構類型的識別模型分別對目標訓練樣本進行內容識別,獲取相應的識別結果;
當各識別結果的內容一致時,以識別結果標注目標訓練樣本。
優選的,在當各識別結果的內容一致時,以識別結果標注目標訓練樣本之后,方法還包括:
利用目標訓練樣本對多種結構類型的識別模型進行訓練,生成多種結構類型的新識別模型;
通過多種結構類型的新識別模型對新目標訓練樣本進行標注。
優選的,在通過多種結構類型的識別模型分別對目標訓練樣本進行內容識別,獲取相應的識別結果之后,方法還包括:
當各識別結果的內容存在差異時,將目標訓練樣本標記為新目標訓練樣本。
優選的,當存在多個目標訓練樣本時,利用目標訓練樣本對多種結構類型的識別模型進行訓練,生成多種結構類型的新識別模型,包括:
通過將各目標訓練樣本平均分配至多種結構類型的識別模型的方式,利用目標訓練樣本對多種結構類型的識別模型進行訓練,生成多種結構類型的新識別模型。
優選的,通過多種結構類型的識別模型分別對目標訓練樣本進行內容識別,獲取相應的識別結果,包括:
通過多種結構類型的識別模型分別對目標證件圖片樣本進行內容識別,獲取相應的識別結果;
當各識別結果的內容一致時,以識別結果標注目標訓練樣本,包括:
當各識別結果的內容一致時,以識別結果標注目標證件圖片樣本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州智趣智能信息技術有限公司,未經杭州智趣智能信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910329181.5/2.html,轉載請聲明來源鉆瓜專利網。





