[發明專利]一種基于眾包模式的樣本標注方法在審
| 申請號: | 202011292894.8 | 申請日: | 2020-11-18 |
| 公開(公告)號: | CN112348108A | 公開(公告)日: | 2021-02-09 |
| 發明(設計)人: | 何國良;王晗;黃成瑞 | 申請(專利權)人: | 武漢大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 湖北武漢永嘉專利代理有限公司 42102 | 代理人: | 李丹 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 模式 樣本 標注 方法 | ||
1.一種基于眾包模式的樣本標注方法,其特征在于,包括以下步驟:
1)獲取未標注的多元時間序列數據集,抽取選擇數據集中需要標注的樣本;
2)對所有標注者,基于每個標注者的標注準確度和標注成本,選擇達到置信度閾值且成本最低的標注者集,作為成本效益眾包標注模型;
3)對抽取的需要標注的樣本,基于成本效益眾包標注模型得到標注結果,將標注后的樣本加入標注數據集,并將其逆最近鄰樣本與該未標注樣本分為同一類,加入標記數據集,得到更新后的標記數據集;
4)計算停止標準,達到停止條件后,得到多元時間序列數據集對應的最終的標記數據集結果。
2.根據權利要求1所述的基于眾包模式的樣本標注方法,其特征在于,所述步驟1)中多元時間序列數據集為工業傳感器數據,金融數據,醫療數據,服務器系統監控數據等。
3.根據權利要求1所述的基于眾包模式的樣本標注方法,其特征在于,所述步驟1)中采用抽樣算法選擇確定數據集中需要標注的樣本。
4.根據權利要求1所述的基于眾包模式的樣本標注方法,其特征在于,所述步驟2)中選擇達到置信度閾值且成本最低的標注者集,具體如下:
2.1)對于所有標注者,采取適應性標注者選擇算法得到用于標注的標注者集;
2.2)基于標注者集中的每個標注者的標注準確度和標注成本,通過群體智能決策計算得到標注者群體標注置信度,對各標注者的標注成本求和得到標注者群體標注成本;
2.3)獲取在滿足置信度要求的條件下,標注成本最低的標注者群體作為標注者集,該標注者集表示如下:
其中,U表示未標注樣本,表示標注者個體,表示用于標注的標注者集,Cost(a)表示標注者集中標注者a的標注成本,Confid(U,H*)表示標注者群體對未標注樣本U的標注置信度,δ為置信度閾值。
5.根據權利要求4所述的基于眾包模式的樣本標注方法,其特征在于,所述步驟2.1)中采取適應性標注者選擇算法得到用于標注的標注者集,具體如下:
2.1.1)初始時隨機生成具有N個個體的人群Θ,人群Θ中的每個個體由一組二進制編碼構成,每個二進制碼表示第i個標注者被選擇的情況,被選擇時為1,否則為0;
2.1.2)對人群Θ中的所有個體進行適應度評價,適應度用標記置信度和標記成本表示,對于人群Θ中的任一個個體適應度F采用下式計算:
其中,Costmax是所有可行解的最大成本,為懲罰方程;
2.1.3)進行交叉操作,對兩個個體的交叉點之前的二進制碼片段進行交換,得到兩個新的個體,在兩個原個體和兩個新個體中選擇適應度最高的兩個個體保留,接下來對保留的個體分別執行變異操作,隨機改變個體的一個二進制編碼值,保留變異前個體與變異后個體中適應度最高的個體;
2.1.4)當滿足迭代停止條件時,得到適應度滿足需求的個體集合即為標注者集
6.根據權利要求1所述的基于眾包模式的樣本標注方法,其特征在于,所述步驟4)中停止條件為在連續幾輪迭代中抽取選擇的樣本之間價值差異變化收斂時,則判斷剩余的未標記樣本中不存在重要的樣本,達到停止條件。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢大學,未經武漢大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011292894.8/1.html,轉載請聲明來源鉆瓜專利網。





