[發明專利]一種中文的分詞方法及裝置有效
| 申請號: | 201711115252.9 | 申請日: | 2017-11-13 |
| 公開(公告)號: | CN107918604B | 公開(公告)日: | 2021-06-25 |
| 發明(設計)人: | 楊良志;汪志新;丁德平;王向軍 | 申請(專利權)人: | 彩訊科技股份有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 孟金喆 |
| 地址: | 518000 廣東省深圳市南山區粵海街*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 中文 分詞 方法 裝置 | ||
本發明實施例公開了一種中文的分詞方法及裝置。所述方法包括:獲取待分詞文本的特征信息,其中,所述特征信息包括段落劃分、標點符號或空格符中至少之一;根據特征信息,確定待分詞文本中的所有自然區間;將自然區間劃分為歧義區間和非歧義區間;確定歧義區間中的候選詞,并將候選詞與非歧義區間中的文本進行匹配;根據匹配結果確定候選詞的分詞規則,并按照分詞規則對所述歧義區間的文本進行分詞處理。通過采用上述技術方案,有效提高了分詞結果與待分詞文本語境之間的關聯性,使得分詞的準確度得到提升。相對于現有技術提供的分詞方案,本發明實施例提供的技術方案計算量較小,在一定程度上也可以提高分詞的快速性。
技術領域
本發明實施例涉及分詞技術領域,尤其涉及一種中文的分詞方法及裝置。
背景技術
隨著互聯網的高速發展,網絡應用趨向多元化,網上的信息量急劇增加。其中,分詞是進行信息處理、信息檢索的基礎,所有的信息處理、信息檢索工作都是在分詞之后進行的。所以分詞的錯誤會被疊加到后續的處理過程中,而且很難被消除。正因為這樣所以對分詞的準確率的追求是個持續的過程。
一般情況下,在英文的行文中,單詞之間是以空格作為自然分界符的,中文中的字、句和段也可通過明顯的分界符來簡單劃界,唯獨中文中的詞沒有一個形式上的分界符。同時由于中文語言的固有特性,對于一個詞而言,沒有明確的詞定義、詞和詞之間也沒有分隔符。此外,新詞,專有名詞的不斷涌現等因素也將導致分詞很難做到100%的準確。
現有分詞技術采用的主要方法是將字符匹配法、理解法以及統計相結合形成的復合型分詞法。由于復合后的分詞算法運算量較大,采用的語法規則也較為復雜,在保證分詞準確度的基礎上極易導致分詞的效率降低。而若只采用上述分詞算法中的其中一種或兩種進行分詞,雖然可以減少計算量,提高運算速度,但是在分詞過程中所考慮的語境因素并不全面。因此,分詞的準確度容易受到影響。所以,現有技術提供的分詞方式并不能兼容分詞的準確度和快速性。
發明內容
本發明實施例提供一種中文的分詞方法及裝置,實現了在保證分詞準確度的同時,減少了分詞過程中的計算量,提高了分詞效率。
為實現上述目的,本發明實施例采用如下技術方案:
第一方面,本發明實施例提供了一種中文的分詞方法,所述方法包括:
獲取待分詞文本的特征信息;
根據所述特征信息,確定所述待分詞文本中的所有自然區間,其中,所述特征信息包括段落劃分、標點符號或空格符中至少之一;
將所述自然區間劃分為歧義區間和非歧義區間;
確定所述歧義區間中的候選詞,并將所述候選詞與所述非歧義區間中的文本進行匹配;
根據匹配結果確定所述候選詞的分詞規則,并按照所述分詞規則對所述歧義區間的文本進行分詞處理。
第二方面,本發明實施例提供了一種中文的分詞裝置,所述裝置包括:
特征信息獲取模塊,用于獲取待分詞文本的特征信息;
自然區間確定模塊,用于根據所述特征信息,確定所述待分詞文本中的所有自然區間,其中,所述特征信息包括段落劃分、標點符號或空格符中至少之一;
區間劃分模塊,用于將所述自然區間劃分為歧義區間和非歧義區間;
候選詞匹配模塊,用于確定所述歧義區間中的候選詞,并將所述候選詞與所述非歧義區間中的文本進行匹配;
分詞處理模塊,用于根據匹配結果確定所述候選詞的分詞規則,并按照所述分詞規則對所述歧義區間的文本進行分詞處理。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于彩訊科技股份有限公司,未經彩訊科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711115252.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種新型食用菌培養基打孔裝置
- 下一篇:一種食用菌固體接種裝置





