[發明專利]一種基于改進信息熵特征的中文未登錄詞識別系統及方法有效
| 申請號: | 201210473340.7 | 申請日: | 2012-11-20 |
| 公開(公告)號: | CN103020022A | 公開(公告)日: | 2013-04-03 |
| 發明(設計)人: | 李超;李想;呂志強 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06F17/22 | 分類號: | G06F17/22;G06F17/27 |
| 代理公司: | 北京科迪生專利代理有限責任公司 11251 | 代理人: | 楊學明 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 改進 信息 特征 中文 登錄 識別 系統 方法 | ||
技術領域
本發明屬于中文詞的識別的技術領域,具體涉及一種基于改進信息熵特征的中文未登錄詞識別系統及方法,其中涉及一種中文未登錄詞的識別系統及方法,特別是在這種方法是完全基于統計特征的,而且在統計過程中使用本發明提出的改進的信息熵特征。
背景技術
隨著網絡時代的發展與web2.0概念的興起,未登錄詞的大量出現已經成為不可避免的語言現象。這種現象在SNS的UGC(user?generate?content)當中尤為明顯,社交網絡中,用戶用詞十分隨意,極不規范,造詞速度很快。未登錄詞識別在很大程度上影響著相關信息處理的效果,在中文分詞領域,未登錄詞的識別性能已經成為提高分詞效果的瓶頸。研究表明,在過去20多年中每年會產生800個以上的新詞,而正是這些未收錄進詞庫的新詞,導致了中文分詞60%以上的錯誤,可見提高未登錄詞的識別率對中文分詞具有重要意義。
傳統的未登錄詞識別系統總是先對文本進行詞典分詞,提取出詞典中不存在的文本片段,然后猜測這些片段就是未登錄詞。這類方法的明顯不足之處在于未登錄詞的識別結果本身就依賴于詞典的質量。
發明內容
本發明要解決的技術問題為:克服現有技術方案的不足,提供一種基于改進信息熵特征的中文未登錄詞識別系統及方法,該系統及方法充分利用中文文本的統計特征,彌補傳統未登錄詞識別方法的不足,降低了對詞典質量的依賴,使該系統應用具有實用性強、準確度高、以及實現方便的優點。
為了實現上述目的,本發明采用的技術方案為:一種基于改進信息熵特征的中文未登錄詞識別系統,包括:
字符序列提取模塊:該模塊從中文文本中切分成許多字符序列,字符序列最短兩個字符,字符序列中必須有且僅有中文漢字字符,如果包含非漢字的其他字符,則不統計該非漢字的其他字符序列;
特征計算模塊:該模塊計算所有字符序列的統計特征,包括:字符序列的左鄰接字的改進信息熵、字符序列的右鄰接字的改進信息熵,字符序列的出現頻率,字符序列的互信息,字符序列的序列長度;其中:
在字符序列的左、右鄰接字符信息熵特征計算過程中,并不是直接計算信息熵特征,而是先用一個隨機的不重復字符代替標點符號字符,然后再使用一般的信息熵的計算方法,得到改進的信息熵特征。
公式為:H(x)=-∑P(xi)log(P(xi)),其中H(x)是鄰接字符的信息熵,P(xi)是鄰接字符取xi的概率;
字符序列的出現頻率是指字符在整個文本中的出現次數;
字符序列的互信息是指:假設有漢字串w1w2,則漢字w1和w2間的互信息定義為:
如果推廣到多字詞,互信息的計算方法將擴展成:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210473340.7/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





