[發明專利]一種基于字典樹的中文未登錄詞識別方法在審
| 申請號: | 201911196602.8 | 申請日: | 2019-11-29 |
| 公開(公告)號: | CN110929510A | 公開(公告)日: | 2020-03-27 |
| 發明(設計)人: | 陳剛 | 申請(專利權)人: | 上海晏鼠計算機技術股份有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 200082 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 字典 中文 登錄 識別 方法 | ||
本發明公開了一種基于字典樹的中文未登錄詞識別方法,包括以下步驟:步驟一:將文本輸入,將一些標點符號等問題進行去除,建立中文文本庫;步驟二:將文本庫構造成字典樹,在這個任務中需要構造兩顆Trie樹,表示正向和反向兩個字符字段集;步驟三:計算詞語左右信息熵的最小值,與信息熵閾值進行比較,保留可能成詞的候選詞;步驟四:計算詞語互信息,與互信息閾值進行比較,將大于互信息閾值的詞保留;步驟五:將之前保留的詞語和詞典進行比較,將原詞典中沒有的詞加入作為詞典的一部分,消除未登錄詞。有益效果:本發明不需預先通過詞典進行分詞,字典樹的時間復雜度和存儲字符串的數據量無關只與查詢的字符串長度有關,在一定程度上能加速算法。
技術領域
本發明涉及中文詞識別技術領域,具體來說,涉及一種基于字典樹的中文未登錄詞識別方法。
背景技術
隨著Web2.0時代的到來,互聯網飛速發展,信息的產生呈現一種爆炸增長方式,而怎么樣處理這些信息就成為一個很重要的問題。而自然語言處理就是對文本信息處理的一種最有效方法之一。而在自然語言處理中就不可能回避未登錄詞的問題。顧名思義,未登錄詞即沒有被收錄在分詞詞表中但必須切分出來的詞,包括各類專有名詞(人名、地名、企業名等)、縮寫詞、新增詞匯等等。在當代互聯網中每天產生各種各樣的未登錄詞,所以未登錄詞的識別變得越來越重要。
在一般中文未登錄詞處理中一般的流程為預處理-分詞-運用算法、模型找到新詞-和詞典比較將新詞加入詞典。在一般的流程中在分詞階段十分依賴詞典的作用,當對于詞典的內容不夠準確、詞典的數量不足時,這其中會存在很多的問題。同時,如果在一個比較新的領域還沒有形成一套完備的詞典時,依賴詞典的分詞方法會有重大問題。
且現有其他未登錄詞算法的有以下缺點:
1.太依賴分詞來進行發現備選詞語,但有時分詞的過程中也會產生一定的錯誤;
2.用哈希表等方式來進行詞頻計算每有一個詞語的時候就要計算一次,在語料庫很大的情況下時間復雜度和空間復雜度都是一個問題;
3.對詞典有一定的依賴,但在發現新詞的過程中詞典的作用不大。
針對相關技術中的問題,目前尚未提出有效的解決方案。
發明內容
本發明的目的在于提供一種基于字典樹的中文未登錄詞識別方法,主要是采用字典樹的方法,將輸入文本直接以字典樹的形式將整篇文本輸入電腦中,因此本方法并不需要進行分詞處理,屬于一種無監督學習方法。在使用字典樹方法時我們只需將文本直接輸入,然后計算機將會自己不需要分詞的發現所有的新詞,和一般的有監督學習方法依賴詞典完全不同,同時字典樹的時間復雜度和存儲字符串的數據量無關只與查詢的字符串長度有關,在一定程度上能加速算法,以解決上述背景技術中提出的問題。
為實現上述目的,本發明提供如下技術方案:一種基于字典樹的中文未登錄詞識別方法,包括以下步驟:
步驟一:將文本輸入,將一些標點符號等問題進行去除,建立中文文本庫;
步驟二:將文本庫構造成字典樹,在這個任務中需要構造兩顆Trie樹,表示正向和反向兩個字符字段集,為了方便接下來要進行的左右信息熵等值的計算;
步驟三:將字典樹上的詞提取出來,計算它的左右信息熵,公式為: H(x)=-∑P(xj)log(P(xj));計算完該詞的左右熵之后取兩個值中的最小值,然后將該詞與信息熵閾值做比較,如果最小值小于閾值則該詞被排除,反之將該詞保留;
步驟四:單單使用左右熵來尋找新詞不夠準確,接下來計算上一步驟中保留的詞語的互信息,以此來計算該詞的凝固度,互信息的計算公式為:通常互信息越大則說明該詞經常出現在一起,而不是經常單獨出現,所以如果詞的互信息小于互信息閾值則將該詞排除,反之將該詞保留;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海晏鼠計算機技術股份有限公司,未經上海晏鼠計算機技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911196602.8/2.html,轉載請聲明來源鉆瓜專利網。





