[發明專利]一種基于主動學習的文本數據自動標注方法有效
| 申請號: | 201710081921.9 | 申請日: | 2017-02-15 |
| 公開(公告)號: | CN107067025B | 公開(公告)日: | 2020-12-22 |
| 發明(設計)人: | 王進;張登峰;卜亞楠;李穎;范磊;李智星;歐陽衛華;孫開偉;陳喬松;鄧欣;胡峰;雷大江 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 重慶市恒信知識產權代理有限公司 50102 | 代理人: | 劉小紅 |
| 地址: | 400065 重*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 主動 學習 文本 數據 自動 標注 方法 | ||
1.一種基于主動學習的文本數據自動標注方法,其特征在于,包括以下步驟:101、對已標記文本數據和未標記文本數據進行處理:首先分別對已人工標記樣本文本數據和未標記樣本文本數據做聚類處理,保存聚類后所得的k個聚簇中心點(C1,C2,C3,…,Ck)和每個聚簇內點到聚類中心的距離d,以及每個聚簇的聚類半徑(r1,r2,…,rk);
102、利用多個不同的基分類器對未標記文本數據進行分類:根據步驟101中經過聚類處理的部分已標記文本數據訓練M個不同的分類器(M1,M2,…,MM),并根據另外一部分文本數據使用線性回歸模型對M個不同基分類器的分類結果做模型融合,得到每個基分類器的權重(i1,i2,…,iM),使用這M個分類器結合各自權重對未標記文本數據進行分類并根據標記結果,將已確定標記無誤的樣本加入已標記樣本并不斷定時重新訓練當前各分類器模型,未標記文本數據確認類別后加入到已標記文本數據中,隨著已標記文本數據量的增加,分類器模型應不斷重新訓練更新;
103、將步驟102未標記文本數據的最終分類結果P和每個基分類器的分類結果(p1,p2,…,pM)進行結合獲取該樣本的分類分歧和:將分歧定義為樣本融合后的最終分類類別和基分類器分類類別是否相同,相同則分歧為0,不相同為1,最后,計算并選取出分歧和大于k/2的未標記文本數據,分歧和指前面所有的0和1相加不同的分類器個數,并做標記處理;
104、對分歧大的文本數據進行人工標記;
105、對人工標記結果進行自檢,如果自檢結果與人工標記的存在差異,則重新將該樣本放入隊列提醒進行重新人工標記。
2.根據權利要求1所述的基于主動學習的文本數據自動標注方法,其特征在于,
所述步驟101對已標記數據聚類處理為:
采用聚類算法對已標記數據進行聚類,保存聚類后所得的X個聚簇中心點坐標,每個聚簇的平均半徑D,以及當前每個聚簇的真實類別(Y1,Y2,Y3,...,YX)。
3.根據權利要求2所述的基于主動學習的文本數據自動標注方法,其特征在于,所述步驟101對未標記數據聚類處理為:
采用聚類算法對未標記數據進行聚類,保存聚類后所得的Y個聚簇中心點(C1,C2,C3,...,CY)和每個聚簇內點到聚類中心的距離d以及每個聚簇的聚類半徑(r1,r2,...,rY),X和Y的值沒有關系,根據數據進行選取,并且X表示已標記數據的聚類后的值,Y表示未標記數據的聚類后的值,X和Y的和應該等于總數k,在自檢過程中方便查找可疑樣本x周圍的N個最近樣本,查找過程:
1)計算x與Y個聚簇中心點的距離L,并減去相應聚簇的半徑r,得到l=(l1,l2,...,lY);
2)取L中值最小的3個簇,設(Q1,Q2,Q3)容器中存放需要的樣本,對3個簇做如下操作:
i、對3個簇中的樣本點按照距離簇中心點的距離從大到小排列;
ii、依次計算樣本點與可疑樣本x的距離,如果距離<Ln則替換掉Qn中的最小值,否則舍去,直到樣本點用完或Qn已滿;Ln表示第n個容器中的距離閾值,n取值1或2或3;
iii、取(Q1,Q2,Q3)中最小的N個值即為所查找的N個最近鄰位置。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710081921.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:高壓斷路器機械狀態識別方法
- 下一篇:基于深度神經網絡的電力設備故障檢測方法





