[發明專利]一種基于改進信息熵特征的中文未登錄詞識別系統及方法有效

申請號：	201210473340.7	申請日：	2012-11-20
公開（公告）號：	CN103020022A	公開（公告）日：	2013-04-03
發明（設計）人：	李超;李想;呂志強	申請（專利權）人：	北京航空航天大學
主分類號：	G06F17/22	分類號：	G06F17/22;G06F17/27
代理公司：	北京科迪生專利代理有限責任公司 11251	代理人：	楊學明
地址：	100191***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于改進信息特征中文登錄識別系統方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明屬于中文詞的識別的技術領域，具體涉及一種基于改進信息熵特征的中文未登錄詞識別系統及方法，其中涉及一種中文未登錄詞的識別系統及方法，特別是在這種方法是完全基于統計特征的，而且在統計過程中使用本發明提出的改進的信息熵特征。

背景技術

隨著網絡時代的發展與web2.0概念的興起，未登錄詞的大量出現已經成為不可避免的語言現象。這種現象在SNS的UGC（user?generate?content）當中尤為明顯，社交網絡中，用戶用詞十分隨意，極不規范，造詞速度很快。未登錄詞識別在很大程度上影響著相關信息處理的效果，在中文分詞領域，未登錄詞的識別性能已經成為提高分詞效果的瓶頸。研究表明，在過去20多年中每年會產生800個以上的新詞，而正是這些未收錄進詞庫的新詞，導致了中文分詞60%以上的錯誤，可見提高未登錄詞的識別率對中文分詞具有重要意義。

傳統的未登錄詞識別系統總是先對文本進行詞典分詞，提取出詞典中不存在的文本片段，然后猜測這些片段就是未登錄詞。這類方法的明顯不足之處在于未登錄詞的識別結果本身就依賴于詞典的質量。

發明內容

本發明要解決的技術問題為：克服現有技術方案的不足，提供一種基于改進信息熵特征的中文未登錄詞識別系統及方法，該系統及方法充分利用中文文本的統計特征，彌補傳統未登錄詞識別方法的不足，降低了對詞典質量的依賴，使該系統應用具有實用性強、準確度高、以及實現方便的優點。

為了實現上述目的，本發明采用的技術方案為：一種基于改進信息熵特征的中文未登錄詞識別系統，包括：

字符序列提取模塊：該模塊從中文文本中切分成許多字符序列，字符序列最短兩個字符，字符序列中必須有且僅有中文漢字字符，如果包含非漢字的其他字符，則不統計該非漢字的其他字符序列；

特征計算模塊：該模塊計算所有字符序列的統計特征，包括：字符序列的左鄰接字的改進信息熵、字符序列的右鄰接字的改進信息熵，字符序列的出現頻率，字符序列的互信息，字符序列的序列長度；其中：

在字符序列的左、右鄰接字符信息熵特征計算過程中，并不是直接計算信息熵特征，而是先用一個隨機的不重復字符代替標點符號字符，然后再使用一般的信息熵的計算方法，得到改進的信息熵特征。

公式為：H(x)＝-∑P(x_i)log(P(x_i))，其中H（x）是鄰接字符的信息熵，P(x_i)是鄰接字符取x_i的概率；

字符序列的出現頻率是指字符在整個文本中的出現次數；

字符序列的互信息是指：假設有漢字串w1w2，則漢字w1和w2間的互信息定義為：

MI(w1w2)=logP(w1w2)P(w1)P(w2);]]>

如果推廣到多字詞，互信息的計算方法將擴展成：

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學，未經北京航空航天大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201210473340.7/2.html，轉載請聲明來源鉆瓜專利網。

上一篇：用于混合動力汽車的能量回收控制方法和系統
下一篇：一種提高厭氧細菌發酵產氫活性的方法

同類專利

專利分類

G 物理

G06 計算；推算；計數
G06F 電數字數據處理
G06F17-00 特別適用于特定功能的數字計算設備或數據處理設備或數據處理方法
G06F17-10 .復雜數學運算的
G06F17-20 .處理自然語言數據的
G06F17-30 .信息檢索；及其數據庫結構
G06F17-40 .數據的獲取和記錄
G06F17-50 .計算機輔助設計

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】