[發明專利]一種中文分詞方法及系統在審
| 申請號: | 201710829295.7 | 申請日: | 2017-09-14 |
| 公開(公告)號: | CN107608966A | 公開(公告)日: | 2018-01-19 |
| 發明(設計)人: | 姜益民;高波;羅毅 | 申請(專利權)人: | 武漢光谷信息技術股份有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京輕創知識產權代理有限公司11212 | 代理人: | 楊立,朱毅 |
| 地址: | 430206 湖北省武漢市東湖新技*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 中文 分詞 方法 系統 | ||
1.一種中文分詞方法,其特征在于,包括:
步驟1、接收用戶輸入的中文信息;
步驟2、根據基本信息庫和預設參數信息,確定所述中文信息對應的編碼串;
步驟3、根據所述編碼串,從數據庫中確定其對應的分詞約定模式,對所述中文信息進行分詞。
2.根據權利要求1所述的一種中文分詞方法,其特征在于,在所述步驟1之前,所述方法還包括:
步驟4、根據預設語境,建立其對應的所述基本信息庫并保存,其中,所述基本信息庫為所述預設語境對應的關鍵詞及所述關鍵詞對應的關鍵詞編碼。
3.根據權利要求2所述的一種中文分詞方法,其特征在于,所述預設參數信息包括:不同于所述關鍵詞的文字串對應的第一編碼,數字串對應的第二編碼和所述編碼串的編碼串模式;
則所述步驟4還包括:
預設所述第一編碼、所述第二編碼、所述編碼串模式和所述分詞約定模式并保存至所述數據庫,
其中,所述編碼串模式為:*A*B...*C,其中,A、B、C分別代表編碼,*代表第一分隔符;所述分詞約定模式為:a#b#...#c,其中,a、b、c分別代表編碼所屬的信息屬性,#代表第二分隔符。
4.根據權利要求3所述的一種中文分詞方法,其特征在于,所述步驟2包括:
根據所述基本信息庫、所述第一編碼、所述第二編碼,解析所述中文信息,確定所述中文信息對應的編碼,并按照所述編碼串模式,確定編碼串。
5.根據權利要求3或4所述的一種中文分詞方法,其特征在于,所述步驟3包括:
步驟3.1、根據所述編碼串,識別所述編碼串中的編碼種類及其排列順序;
步驟3.2、根據所述編碼種類及其排列順序,確定所述編碼串對應的所述分詞約定模式;
步驟3.3、根據所述分詞約定模式,對所述中文信息進行分詞。
6.一種中文分詞系統,其特征在于,包括:
信息接收模塊,用于接收用戶輸入的中文信息;
編碼串確定模塊,用于根據基本信息庫和預設參數信息,確定所述信息接收模塊接收的所述中文信息對應的編碼串;
分詞模塊,用于根據所述編碼串確定模塊確定的所述編碼串,從數據庫中確定其對應的分詞約定模式,對所述中文信息進行分詞。
7.根據權利要求6所述的一種中文分詞系統,其特征在于,所述系統還包括:
信息建立模塊,用于根據預設語境,建立其對應的所述基本信息庫并保存,其中,所述基本信息庫為所述預設語境對應的關鍵詞及所述關鍵詞對應的關鍵詞編碼。
8.根據權利要求7所述的一種中文分詞系統,其特征在于,所述預設參數信息包括:不同于所述關鍵詞的文字串對應的第一編碼,數字串對應的第二編碼和所述編碼串的編碼串模式;
則所述信息建立模塊還用于:
預設所述第一編碼、所述第二編碼、所述編碼串模式和所述分詞約定模式并保存至所述數據庫,
其中,所述編碼串模式為:*A*B...*C,其中,A、B、C分別代表編碼,*代表第一分隔符;所述分詞約定模式為:a#b#...#c,其中,a、b、c分別代表編碼所屬的信息屬性,#代表第二分隔符。
9.根據權利要求8所述的一種中文分詞系統,其特征在于,所述編碼串確定模塊具體用于:
根據所述基本信息庫、所述第一編碼和所述第二編碼,解析所述中文信息,確定所述中文信息對應的編碼,并按照所述編碼串模式,確定編碼串。
10.根據權利要求8或9所述的一種中文分詞系統,其特征在于,所述分詞模塊具體用于:
根據所述編碼串,識別所述編碼串中的編碼種類及其排列順序;根據所述編碼種類及其排列順序,確定所述編碼串對應的所述分詞約定模式;根據所述分詞約定模式,對所述中文信息進行分詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢光谷信息技術股份有限公司,未經武漢光谷信息技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710829295.7/1.html,轉載請聲明來源鉆瓜專利網。





