[發明專利]一種遞歸多層次中文分詞方法有效
| 申請號: | 201210249911.9 | 申請日: | 2012-07-18 |
| 公開(公告)號: | CN102799676A | 公開(公告)日: | 2012-11-28 |
| 發明(設計)人: | 呂強;陶導;方強 | 申請(專利權)人: | 上海語天信息技術有限公司;上海萊希信息科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 上海旭誠知識產權代理有限公司 31220 | 代理人: | 鄭立 |
| 地址: | 201204 上海市浦東新區*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 遞歸 多層次 中文 分詞 方法 | ||
技術領域
本發明涉及自然語言處理技術領域,尤其涉及一種遞歸多層次中文分詞方法。
背景技術
中文分詞指的是將一個漢字序列切分成一個一個單獨的詞,分詞就是將連續的漢字序列按照一定的規范重新組合成詞序列的過程。現有的中文分詞算法大體可分為:基于字符串匹配的分詞方法和基于統計的分詞方法。基于字符串匹配的分詞方法將漢字序列與一個“充分大的”詞典中的詞條進行匹配,若在詞典中找到某個字符串,則匹配成功,即識別出一個詞。按照掃描方向的不同,字符串匹配分詞方法可以分為正向匹配算法和逆向匹配算法,按照不同長度優先匹配的情況,還可以分為最大匹配算法和最小匹配算法,按照分詞的切分粒度還可以分為粗粒度切分和細粒度切分。基于字符串匹配的中文分詞方法具有效率高,更新維護靈活,能夠附帶類型信息,具有一定的歧義消解能力的優點,但是對于未登錄詞的識別能力差。粗粒度切分可以消除歧義,但是切分粒度大,細粒度切分沒有消除歧義的功能,但是切分粒度小。基于統計的分詞方法,是從語料中學習字成詞的統計信息,從而發現一些成詞規則,其對未登錄詞有較好的識別能力,但是效率低,更新維護麻煩,周期長,同時分詞的粒度偏向于細粒度切分。在當前的很多自然語言處理領域的應用和搜索引擎的應用中,考慮到切分粒度和分詞效率的雙重要求,采用細切分粒度的基于字符串匹配的分詞方法,生成的分詞包含多個層次但是沒有消除歧義的功能。
發明內容
有鑒于現有技術的上述缺陷,本發明所要解決的技術問題是提供一種保證中文分詞切分粒度的同時,還能在各個層次的分詞中都消除歧義的,能夠有效提升全切分的準確度的遞歸多層次中文分詞方法。
為實現上述目的,本發明提供了一種遞歸多層次中文分詞方法,包括如下步驟:
步驟1,利用當前字典樹對輸入的中文文本使用最大匹配算法進行中文分詞,生成當前分詞和當前分詞層次;
步驟2,在當前字典樹中對步驟1中所生成的分詞進行選擇性地屏蔽;
步驟3,將步驟2中選擇性屏蔽后的字典樹作為當前字典樹;
步驟4,判斷上述步驟1中所生成的各個中文分詞在所述當前字典樹中是否存在非單字前綴詞,若有一個分詞存在非單字前綴詞,則繼續進行上述步驟1到步驟3,若各個分詞都不存在非單字前綴詞,則進入步驟5;
步驟5,在當前字典樹中將上述各步驟中屏蔽的中文分詞重新插入當前字典樹,并輸出分詞結果。
進一步地,步驟2中所述的選擇性屏蔽具體為:對于每個分詞,判斷在字典樹中是否存在該分詞的非單字前綴詞,若存在該分詞的非單字前綴詞,則在字典樹中屏蔽該分詞,并記錄被屏蔽的分詞,若不存在該分詞的非單字前綴詞,則不屏蔽該分詞。
進一步地,步驟1還包括記錄生成的當前分詞及當前分詞層次。
本發明的有益效果在于:該遞歸多層次中文分詞方法在基于字符串匹配的細粒度切分中文分詞算法的基礎上,結合遞歸和多層次分詞,實現了保證切分粒度的同時,在各個層次的分詞中都消除歧義,提高了分詞的準確度。
以下將結合附圖對本發明的構思、具體結構及產生的技術效果作進一步說明,以充分地了解本發明的目的、特征和效果。
附圖說明
圖1是本發明的遞歸多層次中文分詞方法的處理流程圖。
具體實施方式
下面結合附圖來具體說明本發明的實施例。
一種遞歸多層次中文分詞方法,包括如下步驟:
步驟1,利用當前字典樹對輸入的中文文本使用最大匹配算法進行中文分詞,生成當前分詞和當前分詞層次;
步驟2,在當前字典樹中對步驟1中所生成的分詞進行選擇性地屏蔽;
步驟3,將步驟2中選擇性屏蔽后的字典樹作為當前字典樹;
步驟4,判斷上述步驟1中所生成的各個中文分詞在所述當前字典樹中是否存在非單字前綴詞,若有一個分詞存在非單字前綴詞,則繼續進行上述步驟1到步驟3,若各個分詞都不存在非單字前綴詞,則進入步驟5;
步驟5,在當前典樹中將上述各步驟中屏蔽的中文分詞重新插入當前字典樹,并輸出分詞結果。
其中,上述步驟2中所述的選擇性屏蔽具體為:對于每個分詞,依次判斷在字典樹中是否存在該分詞的非單字前綴詞,若存在該分詞的非單字前綴詞,則在字典樹中屏蔽該分詞,并記錄被屏蔽的該分詞,若不存在該分詞的非單字前綴詞,則不屏蔽該分詞。
其中,上述步驟1還包括記錄生成的當前分詞及當前分詞層次,記錄形式為(當前分詞,當前分詞層次)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海語天信息技術有限公司;上海萊希信息科技有限公司,未經上海語天信息技術有限公司;上海萊希信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210249911.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:從空氣中制取低純度氧氣的深冷法分離方法及其裝置
- 下一篇:LED標識燈





