[發(fā)明專利]一種結(jié)合標注質(zhì)量控制的主動學習方法在審
| 申請?zhí)枺?/td> | 202110036696.3 | 申請日: | 2021-01-12 |
| 公開(公告)號: | CN112766347A | 公開(公告)日: | 2021-05-07 |
| 發(fā)明(設(shè)計)人: | 宋艷枝;王星宇 | 申請(專利權(quán))人: | 合肥黎曼信息科技有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/08 |
| 代理公司: | 安徽省蚌埠博源專利商標事務(wù)所(普通合伙) 34113 | 代理人: | 朱恒蘭 |
| 地址: | 230001 安徽省合肥市高新區(qū)創(chuàng)新*** | 國省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 結(jié)合 標注 質(zhì)量 控制 主動 學習方法 | ||
本發(fā)明涉及主動學習技術(shù)領(lǐng)域,具體涉及一種結(jié)合標注質(zhì)量控制的主動學習方法,包括以下步驟:S1:訓練模型;S2:對全部未標注樣本進行偽標注;S3:分折計算觀測距離S4:基于觀測距離挑選待標注和待檢查的樣本,基于觀測距離挑選待標注和待檢查的樣本,對于需要標注的樣本,將其標注后加入已標注樣本集,對于需要檢查的樣本,對其進行一次額外的標注,再基于已有的歷史標注確定其標注,然后更新已標注樣本集,完成本步驟后返回步驟S1,直到模型性能可以接受,或者達到了標注預算限制;這種結(jié)合標注質(zhì)量控制的主動學習方法,可以在主動學習的同時控制標注質(zhì)量。
技術(shù)領(lǐng)域
本發(fā)明涉及主動學習技術(shù)領(lǐng)域,具體涉及一種結(jié)合標注質(zhì)量控制的主動學習方法。
背景技術(shù)
主動學習,是利用模型選擇最有價值的待標注樣本的過程。在學習過程中,通過逐次標注最有價值的樣本而降低訓練模型所需的標注成本。
通常主動學習的模式,是不考慮樣本的標注質(zhì)量的,即認為標注人員給出的標注是可以信賴的。但實際中,標注人員給出錯誤的標注結(jié)果是不可避免的。所以在實際應(yīng)用時,主動學習方法通常隱含一個標注質(zhì)量控制方法,以確保獲得的標注的質(zhì)量可以接受。主動學習與標注質(zhì)量控制都是獨立工作的,沒有協(xié)同工作,這降低了整體的標注效率。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種結(jié)合標注質(zhì)量控制的主動學習方法,可以在主動學習的同時控制標注質(zhì)量。
為了實現(xiàn)以上目的,本發(fā)明采用的技術(shù)方案為:一種結(jié)合標注質(zhì)量控制的主動學習方法,包括以下步驟:
S1:訓練模型;
S2:對全部未標注樣本進行偽標注;
S3:分折計算觀測距離
S4:基于觀測距離挑選待標注和待檢查的樣本,基于觀測距離挑選待標注和待檢查的樣本,對于需要標注的樣本,將其標注后加入已標注樣本集,對于需要檢查的樣本,對其進行一次額外的標注,再基于已有的歷史標注確定其標注,然后更新已標注樣本集,完成本步驟后返回步驟S1,直到模型性能可以接受,或者達到了標注預算限制。
進一步的,所述的步驟S3中的觀測距離采用分折實驗的方法計算。
進一步的,所述的方法還包括選擇待標注樣本和待檢查標注的指標,包括使用預測距離選擇待標注樣本,使用標注距離選擇待檢查的標注,還包括基于三角不等式使用觀測距離作為預測距離和標注距離的下界。
本發(fā)明的技術(shù)效果在于:本發(fā)明中的結(jié)合標注質(zhì)量控制的主動學習方法可以同時進行主動學習和標注質(zhì)量控制,并使用模型選擇待檢查的樣本,以降低質(zhì)量控制的效率,降低總的標注成本。
附圖說明
圖1為本發(fā)明實施例提供的主動學習方法的流程示意圖。
圖2為本發(fā)明實施例提供的主動學習方法中“標注距離-預測距離-觀測距離”示意圖。
圖3為本發(fā)明實施例提供的主動學習方法抗冗余實驗結(jié)果分析。
圖4為本發(fā)明實施例提供的主動學習方法模擬實驗數(shù)據(jù)。
圖5為本發(fā)明實施例提供的主動學習方法真實數(shù)據(jù)實驗數(shù)據(jù)。
圖6為本發(fā)明實施例提供的主動學習方法真實數(shù)據(jù)實驗數(shù)據(jù)。
具體實施方式
參照附圖1-6,一種結(jié)合標注質(zhì)量控制的主動學習方法,包括以下步驟:
S1:訓練模型;
S2:對全部未標注樣本進行偽標注;
S3:分折計算觀測距離
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于合肥黎曼信息科技有限公司,未經(jīng)合肥黎曼信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110036696.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類





