[發明專利]一種基于主動學習的中文正式文本分詞方法在審
| 申請號: | 201810316873.1 | 申請日: | 2018-04-10 |
| 公開(公告)號: | CN108519978A | 公開(公告)日: | 2018-09-11 |
| 發明(設計)人: | 王亞強;何夢秋;何思佑;唐聃;舒紅平 | 申請(專利權)人: | 成都信息工程大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京眾合誠成知識產權代理有限公司 11246 | 代理人: | 夏艷 |
| 地址: | 610225 四川省成都*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 主動學習 標注 抽取數據 數據集 樸素貝葉斯分類器 文本分詞 迭代 抽樣 方法選擇 滿足條件 人工標注 隨機抽取 有效減少 分詞器 中文 度量 申請 信息量 | ||
1.一種基于主動學習的中文正式文本分詞方法,其特征在于,包括以下步驟:
步驟1:用現有的少量已標注數據去學習訓練得到一個預測模型;
步驟2:通過訓練得到的預測模型去預測未標注數據,從而得到預測結果,所述預測結果為從未標注數據中篩選出待標注的數據;
步驟3:利用抽樣方法從待標注的數據中選擇最有信息量的數據片段提交給專家標注;
步驟4:將標注后的數據和所述已標注數據結合一起重新訓練所述預測模型,不斷迭代,直到達到一定標注比例結束迭代;
所述抽樣方法包括:不確定性抽樣方法、結合多樣性的不確定性抽樣方法兩種,每種方法均采取片段選取窗口可控的片段選擇方法,所述片段選擇方法為同時選取所述待標注數據的前后文1元、2元、3元特征作為重新確定的待標注數據。
2.根據權利要求1所述的方法,其特征在于,在步驟2之后,步驟3之前,包括:利用EM算法對待標注的數據進行迭代,直到分類結果不再變化,將迭代結果作為待標注的數據。
3.根據權利要求1或2所述的方法,其特征在于,所述預測模型為樸素貝葉斯分類器,所述樸素貝葉斯分類器通過計算下式來預測一個新樣例的類別
其中,
N(cj)表示在訓練數據中,屬于類別cj的樣例總數;N(|D|)表示訓練數據中的樣例總數;N(fj,cj)表示特征fj屬于類別cj的總數;N(fn,cj)表示特征fn屬于類別cj的總數;|F|表示特征空間大小。
4.根據權利要求1或2所述的方法,其特征在于,所述不確定性抽樣方法采用條件熵來度量每個位置的不確定性,條件熵是在一個變量X的條件下,另一個隨機變量Y的不確定性,公式如下:
其中X是一個離散型隨機變量,取值空間為R,其概率分布為p(x)=P(X=x),x∈R。
5.根據權利要求1或2所述的方法,其特征在于,所述結合多樣性的不確定性抽樣方法就是在不確定性抽樣的基礎上引入了詞頻,公式為:
Φ(x)_un_div=(-H(x|y))*Φ(x)_div
Φ(x)_div為詞頻統計,即不同二元組的分別計數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都信息工程大學,未經成都信息工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810316873.1/1.html,轉載請聲明來源鉆瓜專利網。





