[發明專利]基于人機協同學習的數據標注方法有效
| 申請號: | 201810416774.0 | 申請日: | 2018-05-04 |
| 公開(公告)號: | CN108898225B | 公開(公告)日: | 2020-07-17 |
| 發明(設計)人: | 馮翱;高正杰;吳錫 | 申請(專利權)人: | 成都信息工程大學;成都智睿通拓科技有限公司 |
| 主分類號: | G06N20/10 | 分類號: | G06N20/10;G06K9/62 |
| 代理公司: | 成都智涌知識產權代理事務所(普通合伙) 51313 | 代理人: | 周正輝 |
| 地址: | 610000 四川省成都*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 人機 協同 學習 數據 標注 方法 | ||
1.一種基于人機協同學習的數據標注方法,其特征在于,包括以下步驟:
步驟1:由領域專家制定分類標準和標注規范,并針對每一個類別都給出樣例作為金標數據;
步驟2:使用金標數據啟動訓練標注人員的過程,根據指定的中心點,通過聚類方法來獲取高置信度的數據,然后結合金標數據和標注規范來訓練標注人員,以所述金標數據作為聚類的中心點對數據進行聚類處理,選出與所述金標數據相似度不低于90%的數據作為銀標數據來訓練標注人員,然后利用所述金標數據對標注人員進行測試,測試通過即可進行下一步的標注,否則繼續進行標注規則的學習;
步驟3:利用所述金標數據和銀標數據作為訓練集,對未分類的數據I進行分類,得到的置信度不低于90%的數據可以直接采用,并且將其加入訓練數據集重新訓練分類器,得到分類器的模型參數w;置信度高于95%的數據用于反向考核標注人員;對于置信度低于90%的數據則放回待標注數據集中;
步驟4:利用主動學習理論,從待標注數據集中選取出最值得標注的數據C,分發給標注人員進行標注,其中,
C=argmaxP(C|I,w)
然后將得到的標注結果加入訓練集重新訓練分類器;
步驟5:不斷迭代步驟3和4,當分類器的精度達到預設的閾值后則開始進行下一分類器的訓練。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都信息工程大學;成都智睿通拓科技有限公司,未經成都信息工程大學;成都智睿通拓科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810416774.0/1.html,轉載請聲明來源鉆瓜專利網。





