[發明專利]詞性標注模型訓練裝置、詞性標注系統及其方法有效
| 申請號: | 200810085463.7 | 申請日: | 2008-03-19 |
| 公開(公告)號: | CN101539907A | 公開(公告)日: | 2009-09-23 |
| 發明(設計)人: | 胡長建;趙凱;邱立坤 | 申請(專利權)人: | 日電(中國)有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 中科專利商標代理有限責任公司 | 代理人: | 羅松梅 |
| 地址: | 100007北京市東城區東四十*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 詞性 標注 模型 訓練 裝置 系統 及其 方法 | ||
技術領域
本發明涉及文本信息處理領域,具體地,涉及一種詞性標注模型訓 練裝置及其方法,一種詞性標注系統及其方法。
背景技術
隨著互聯網的廣泛普及以及社會的日益信息化,文本信息越來越 多,對應的文本信息處理的社會需求越來越大,人們越來越強烈地希 望用自然語言同計算機交流,并希望用自動化的手段處理海量的文本 信息。為了更好地處理文本信息,人們需要積累大量的語言數據資源, 其中包括詞典。作為處理文本的重要工具-詞典,往往是由人工編纂的, 詞典的主要組成包括詞及其屬性,目前開發的未登錄詞(文本中很多 詞不在現有詞典中,這些詞相對于現有詞典稱為未登錄詞)識別算法 能夠有效地從語境中提取未登錄詞,當對未登錄詞的屬性標注還是一 個相對新的研究課題。如果能夠依據現存的文本信息,對未登錄詞屬 性進行準確標注,那么該技術將有助于實現詞典的自動編纂,也畢竟 促進文本信息處理的發展。
在分詞技術中,對于未登錄詞的切分錯誤極大地影響到整體分詞 的召回率,進一步會影響到后續語法以及語義理解的準確度,給信息 處理造成一定的困難。因此對未登錄詞的識別和對其的屬性自動標注 成為兩個待解決的問題。本發明關注后者即對未登錄詞的屬性自動標 注,并主要針對未登錄詞的詞性自動標注為研究對象。
未登錄詞詞性自動標注的必要性:
1)字典構造時需要對未登錄詞標注詞性。這項工作可以人為,但是采 用機器自動標注、人校正的方式可以減輕人的負擔;
2)對某些在線應用是必要的。例如關鍵詞提取(名詞可以是關鍵詞, 形容詞不行)。
對于上述問題,業界存在一些相關解決方案,例如: 專利CN1369877中給出一個新詞詞類(詞性)猜測的方法。該專利首 先為新詞中每一個字符確定一個分離概率,該概率描述在一個長度和 該多字符詞一樣長的并且具有一定特定此類的詞中可在該字符的當前 位置上發現該字符的似然性。例如對于一個雙字符詞“AB”,該專利 會為字符“A”確定出現在雙字符名詞中的第一字符出的第一概率, 出現在雙字符動詞的第一字符的第二概率以及出現在雙字符形容詞的 第一字符的第三概率。然后在詞類基上組合各字符的概率以便為每種 詞類形成一個分離中概率,基于該總概率對一個閾值比較,把概率超 過該閾值的每種詞類增加為該多字符詞的可能詞類。
文獻[Lu,X.F.Hybrid?Methods?for?POS?Guessing?of?Chinese Unknown?Words.Proceedings?of?the?ACL?Student?Research?Workshop, pages?1-6]基于人工創建的規則(這些規則是分別為不同長度的多字符 詞,依據中文詞的詞法構成而創建,比如多字符詞“AB”,如果A=B, 且A是名詞,AB是名詞)來進行未登錄詞的詞性判斷。
目前的技術沒有能有效地解決對未登錄詞的詞性自動標注問題, 其中專利CN1369877無法對存在字符分離概率為零的未登錄詞給出 合理詞性判斷,另外該詞性標注的準確度取決于選用的詞典,而文獻 [Lu,X.F.Hybrid?Methods?for?POS?Guessing?of?Chinese?Unknown?Words. Proceedings?of?the?ACL?Student?Research?Workshop,pages?1-6]對應的 方法Recall(20%)比較低。
發明內容
本發明主要利用現有詞典以及外部媒介對未登錄詞進行詞性標 注。本發明可以自動從現有詞典中抽取構詞規則(構詞直接成分,直 接成分屬性和直接成分關系),并基于構詞規則構造詞性標注模型,基 于詞性標注模型對未登錄詞詞性進行標注,并計算對應的可信度。然 后對于低可信度的詞性標注,利用外部媒介抽取上下文并進行分析, 對這些詞性標注進行修正,最終給出準確度較高的詞性標注。基于構 詞規則可以從本質上分析詞的外在展現屬性,因此本方法能夠有效地 提高召回率,對于長登錄詞也同樣能夠給出合理的詞性標注,同時對 詞典的依賴性較弱,有很好的穩定性。另外由于本發明采用自動方法 抽取構詞規則,并采用多種特征來訓練學習,因此能夠實現高準確度 的詞性標注。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于日電(中國)有限公司,未經日電(中國)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810085463.7/2.html,轉載請聲明來源鉆瓜專利網。





