[發明專利]一種中文分詞方法及系統在審

申請號：	201710829295.7	申請日：	2017-09-14
公開（公告）號：	CN107608966A	公開（公告）日：	2018-01-19
發明（設計）人：	姜益民;高波;羅毅	申請（專利權）人：	武漢光谷信息技術股份有限公司
主分類號：	G06F17/27	分類號：	G06F17/27
代理公司：	北京輕創知識產權代理有限公司11212	代理人：	楊立,朱毅
地址：	430206 湖北省武漢市東湖新技***	國省代碼：	湖北;42
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種中文分詞方法系統
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種中文分詞方法，其特征在于，包括：

步驟1、接收用戶輸入的中文信息；

步驟2、根據基本信息庫和預設參數信息，確定所述中文信息對應的編碼串；

步驟3、根據所述編碼串，從數據庫中確定其對應的分詞約定模式，對所述中文信息進行分詞。

2.根據權利要求1所述的一種中文分詞方法，其特征在于，在所述步驟1之前，所述方法還包括：

步驟4、根據預設語境，建立其對應的所述基本信息庫并保存，其中，所述基本信息庫為所述預設語境對應的關鍵詞及所述關鍵詞對應的關鍵詞編碼。

3.根據權利要求2所述的一種中文分詞方法，其特征在于，所述預設參數信息包括：不同于所述關鍵詞的文字串對應的第一編碼，數字串對應的第二編碼和所述編碼串的編碼串模式；

則所述步驟4還包括：

預設所述第一編碼、所述第二編碼、所述編碼串模式和所述分詞約定模式并保存至所述數據庫，

其中，所述編碼串模式為：*A*B...*C，其中，A、B、C分別代表編碼，*代表第一分隔符；所述分詞約定模式為：a#b#...#c，其中，a、b、c分別代表編碼所屬的信息屬性，#代表第二分隔符。

4.根據權利要求3所述的一種中文分詞方法，其特征在于，所述步驟2包括：

根據所述基本信息庫、所述第一編碼、所述第二編碼，解析所述中文信息，確定所述中文信息對應的編碼，并按照所述編碼串模式，確定編碼串。

5.根據權利要求3或4所述的一種中文分詞方法，其特征在于，所述步驟3包括：

步驟3.1、根據所述編碼串，識別所述編碼串中的編碼種類及其排列順序；

步驟3.2、根據所述編碼種類及其排列順序，確定所述編碼串對應的所述分詞約定模式；

步驟3.3、根據所述分詞約定模式，對所述中文信息進行分詞。

6.一種中文分詞系統，其特征在于，包括：

信息接收模塊，用于接收用戶輸入的中文信息；

編碼串確定模塊，用于根據基本信息庫和預設參數信息，確定所述信息接收模塊接收的所述中文信息對應的編碼串；

分詞模塊，用于根據所述編碼串確定模塊確定的所述編碼串，從數據庫中確定其對應的分詞約定模式，對所述中文信息進行分詞。

7.根據權利要求6所述的一種中文分詞系統，其特征在于，所述系統還包括：

信息建立模塊，用于根據預設語境，建立其對應的所述基本信息庫并保存，其中，所述基本信息庫為所述預設語境對應的關鍵詞及所述關鍵詞對應的關鍵詞編碼。

8.根據權利要求7所述的一種中文分詞系統，其特征在于，所述預設參數信息包括：不同于所述關鍵詞的文字串對應的第一編碼，數字串對應的第二編碼和所述編碼串的編碼串模式；

則所述信息建立模塊還用于：

預設所述第一編碼、所述第二編碼、所述編碼串模式和所述分詞約定模式并保存至所述數據庫，

9.根據權利要求8所述的一種中文分詞系統，其特征在于，所述編碼串確定模塊具體用于：

根據所述基本信息庫、所述第一編碼和所述第二編碼，解析所述中文信息，確定所述中文信息對應的編碼，并按照所述編碼串模式，確定編碼串。

10.根據權利要求8或9所述的一種中文分詞系統，其特征在于，所述分詞模塊具體用于：

根據所述編碼串，識別所述編碼串中的編碼種類及其排列順序；根據所述編碼種類及其排列順序，確定所述編碼串對應的所述分詞約定模式；根據所述分詞約定模式，對所述中文信息進行分詞。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于武漢光谷信息技術股份有限公司，未經武漢光谷信息技術股份有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201710829295.7/1.html，轉載請聲明來源鉆瓜專利網。

上一篇：書籍主人公姓名的提取方法、電子設備及存儲介質
下一篇：一種錯誤字符識別方法及終端

同類專利

專利分類

G 物理

G06 計算；推算；計數
G06F 電數字數據處理
G06F17-00 特別適用于特定功能的數字計算設備或數據處理設備或數據處理方法
G06F17-10 .復雜數學運算的
G06F17-20 .處理自然語言數據的
G06F17-30 .信息檢索；及其數據庫結構
G06F17-40 .數據的獲取和記錄
G06F17-50 .計算機輔助設計

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】