[發明專利]一種分詞訓練方法及裝置在審
| 申請號: | 201710229249.3 | 申請日: | 2017-04-10 |
| 公開(公告)號: | CN108694164A | 公開(公告)日: | 2018-10-23 |
| 發明(設計)人: | 張春榮 | 申請(專利權)人: | 普天信息技術有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 王慶龍 |
| 地址: | 100080 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 標注 分詞 目標模型 樣本 語料 樣本點 預設 接收用戶 模型基礎 模型結合 人工標注 閾值獲取 工作量 重復 | ||
本發明實施例公開了一種分詞訓練方法及裝置,方法包括:獲取未標注樣本,計算未標注樣本中每個樣本點的不確定值;根據每個樣本點的不確定值,將未標注樣本劃分為若干個子樣本,并根據不確定閾值獲取每個子樣本中分詞訓練的目標語料;接收用戶對目標語料的標注操作,根據標注操作生成標注結果;根據標注結果和預設模型,得到分詞訓練的目標模型。本發明實施例通過計算樣本點的不確定值,并獲取特定不確定值的目標語料,僅對目標語料進行人工標注,除了能夠避免重復標注,而且極大程度上降低了標注的工作量;同時通過將標注結果和預設模型結合,使得目標模型在預設模型基礎上進行分詞訓練,目標模型的獲取更為高效,也使得目標模型更為精簡。
技術領域
本發明實施例涉及計算機技術領域,具體涉及一種分詞訓練方法及裝置。
背景技術
中文分詞是中文信息處理中的重要基礎問題,在機器翻譯、信息檢索、語音合成等諸多領域有著廣泛應用。隨著有指導中文分詞方法的逐漸完善,表現較好的分詞系統準確率能達到95%以上。但是在跨領域中文分詞中,由于目標領域內容的變化,不可避免地帶來了諸多訓練語料中未出現的領域詞匯。如果原領域是新聞詞匯(例如常用的1998年人民日報語料),而目標領域是軌道交通招投標詞匯,經常出現新聞領域不常用的詞匯,這使得分詞系統的準確率大大降低。
針對領域適應性問題,需要通過引入新的特征來訓練中文分詞模型,加強中文分詞模型的領域適應性。傳統中文分詞方法大多基于人工詞典和需要大規模標注語料的統計模型,都是有指導的監督學習方法(即被動學習)。但是,無論編寫詞典還是標注語料庫,都需要大量人工勞動。常見基于字標注分詞方法,通過引入新的特征來訓練中文分詞模型,加強中文分詞模型的領域適應性。圖1為領域自適應訓練和分詞過程(其中虛線是訓練過程,實線是中文分詞過程)。領域適應性的分詞訓練:首先將“目標領域”未標注的語料進行人工標注,然后與“原領域”標注語料進行混合訓練,得到目標領域模型。領域適應性的中文分詞過程:利用得到的目標領域模型對目標領域文本進行分詞,以獲得中文分詞結果。這個訓練過程需要人工標注語料庫,并用大規模已標注語料來對系統模型進行訓練,而獲取大量的標注樣本是一件非常費時費力的工作。
在實現本發明實施例的過程中,發明人發現現有的方法在進行適應性訓練時,人工標注的目標領域語料越多,訓練的模型就越有效,就需要獲取盡量多的目標領域的大規模標注語料,如圖1所示。要標注大規模的數據集,每次按順序或隨機選取樣本進行標注的代價相當大,通常獲取大量的標注樣本,是一件非常費時費力的工作。因此如何從大量的未標注樣例中挑選最有價值的樣例進行標注,使用少量人工標注樣例進行訓練得到的更有效的領域訓練模型,是需要考慮的問題。另外,重復標注問題是對人工標注的大大浪費。例如,在訓練數據中“人民”一詞共出現了多次,這就意味著需要對該詞重復標注多次。其次,現有的適應性訓練中需要對原領域和目標領域標準的語料進行混合訓練。這在實際中有多方面局限性:1)大規模語料是動態變化的,每次數據量(訓練樣本)的變化都引起重復學習;2)針對目標領域,只需修改因目標領域語料變化而涉及的規則,需要快速獲得模型并部署,而在海量數據的情況下混合訓練是一種耗時的工作。
發明內容
由于現有的方法存在上述問題,本發明實施例提出一種分詞訓練方法及裝置。
第一方面,本發明實施例提出一種分詞訓練方法,包括:
獲取未標注樣本,計算所述未標注樣本中每個樣本點的不確定值;
根據所述每個樣本點的不確定值,將所述未標注樣本劃分為若干個子樣本,并根據不確定閾值獲取每個子樣本中分詞訓練的目標語料;
接收用戶對所述目標語料的標注操作,根據所述標注操作生成標注結果;
根據所述標注結果和預設模型,得到分詞訓練的目標模型。
可選地,所述獲取未標注樣本,計算所述未標注樣本中每個樣本點的不確定值,具體包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于普天信息技術有限公司,未經普天信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710229249.3/2.html,轉載請聲明來源鉆瓜專利網。





