[發明專利]一種基于改進信息熵特征的中文未登錄詞識別系統及方法有效
| 申請號: | 201210473340.7 | 申請日: | 2012-11-20 |
| 公開(公告)號: | CN103020022A | 公開(公告)日: | 2013-04-03 |
| 發明(設計)人: | 李超;李想;呂志強 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06F17/22 | 分類號: | G06F17/22;G06F17/27 |
| 代理公司: | 北京科迪生專利代理有限責任公司 11251 | 代理人: | 楊學明 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 改進 信息 特征 中文 登錄 識別 系統 方法 | ||
1.一種基于改進信息熵特征的中文未登錄詞識別系統,其特征在于:包括:
字符序列提取模塊:該模塊從中文文本中切分成許多字符序列,字符序列最短兩個字符,字符序列中必須有且僅有中文漢字字符,如果包含非漢字的其他字符,則不統計該非漢字的其他字符序列;
特征計算模塊:該模塊計算所有字符序列的統計特征,包括:字符序列的左鄰接字的改進信息熵、字符序列的右鄰接字的改進信息熵,字符序列的出現頻率,字符序列的互信息,字符序列的序列長度;其中:
在字符序列的左、右鄰接字符信息熵特征計算過程中,并不是直接計算信息熵特征,而是先用一個隨機的不重復字符代替標點符號字符,然后再使用一般的信息熵的計算方法,得到改進的信息熵特征;
公式為:H(x)=-∑P(xi)log(P(xi)),其中H(x)是鄰接字符的信息熵,P(xi)是鄰接字符取xi的概率);
字符序列的出現頻率是指字符在整個文本中的出現次數;
字符序列的互信息是指:假設有漢字串w1w2,則漢字w1和w2間的互信息定義為:
如果推廣到多字詞,互信息的計算方法將擴展成:
字符序列的序列長度是指字符序列包含的字符數;
成詞識別模塊:該模塊使用訓練好的成詞識別的分類器進行分類處理,判斷字符序列成詞或者不成詞;
詞典比對模塊:該模塊將成詞識別模塊獲得的成詞字符序列與詞典文件對比,詞典文件中不存在字符序列的即是未登錄的詞匯。
2.一種基于改進信息熵特征的中文未登錄詞識別方法,其特征在于:包括:
字符序列提取步驟:該步驟從中文文本中切分成許多字符序列,字符序列最短兩個字符,字符序列中必須有且僅有中文漢字字符,如果包含非漢字的其他字符,則不統計該非漢字的其他字符序列;
特征計算步驟:該步驟計算所有字符序列的統計特征,包括:字符序列的左鄰接字的改進信息熵、字符序列的右鄰接字的改進信息熵,字符序列的出現頻率,字符序列的互信息,字符序列的序列長度;其中:
在字符序列的左、右鄰接字符信息熵特征計算過程中,并不是直接計算信息熵特征,而是先用一個隨機的不重復字符代替標點符號字符,然后再使用一般的信息熵的計算方法,得到改進的信息熵特征;
公式為:H(x)=-∑P(xi)log(P(xi)),其中H(x)是鄰接字符的信息熵,P(xi)是鄰接字符取xi的概率;
字符序列的出現頻率是指字符在整個文本中的出現次數;
字符序列的互信息是指:假設有漢字串w1w2,則漢字w1和w2間的互信息定義為:
如果推廣到多字詞,互信息的計算方法將擴展成:
字符序列的序列長度是指字符序列包含的字符數;
成詞識別步驟:該步驟使用訓練好的成詞識別的分類器進行分類處理,判斷字符序列成詞或者不成詞;
詞典比對步驟:該步驟將成詞識別模塊獲得的成詞字符序列與詞典文件對比,詞典文件中不存在字符序列的即是未登錄的詞匯。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210473340.7/1.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





