[發明專利]一種分詞方法及裝置有效
| 申請號: | 201410006570.1 | 申請日: | 2014-01-07 |
| 公開(公告)號: | CN103678282A | 公開(公告)日: | 2014-03-26 |
| 發明(設計)人: | 王歡良;薛峰;惠寅華;趙鵬程;俞凱 | 申請(專利權)人: | 蘇州思必馳信息科技有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 北京科億知識產權代理事務所(普通合伙) 11350 | 代理人: | 湯東鳳 |
| 地址: | 215123 江蘇省蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 分詞 方法 裝置 | ||
1.一種分詞方法,其特征在于,所述方法包括:
利用n階馬爾科夫模型n-gram模型,將待分詞文本進行分詞,得到第一文本,所述n-gram模型用于消除分詞歧義,所述第一文本包括以空格為間隔的詞串;
當所述第一文本中包括目標詞串時,將所述目標詞串添加至詞典,得到更新后的詞典,所述目標詞串為未存儲在所述詞典中的詞串,所述詞典用于存儲所有的詞串以及對應的估計概率;
根據所述更新后的詞典,利用前向最大匹配分詞方法以及后向最大匹配分詞方法對所述第一文本按預設算法進行分詞,分別得到第二文本和第三文本,所述前向最大匹配分詞方法以及后向最大匹配分詞方法用于按照預設策略將第一文本的漢字串與所述更新后的詞典中的詞條進行匹配;
從所述第二本文以及所述第三文本中選取詞長期望和詞長方差符合預設規則的文本作為分詞結果。
2.根據權利要求1所述的方法,其特征在于,從所述第二本文以及所述第三文本中選取詞長期望和詞長方差符合預設規則的文本作為分詞結果包括:
當所述第二本文以及所述第三文本中選取詞長期望不相同時,從所述第二本文以及所述第三文本中選取詞長期望大的文本作為分詞結果;或,
當所述第二本文以及所述第三文本中選取詞長期望相同時,從所述第二本文以及所述第三文本中選取詞長方差小的文本作為分詞結果。
3.根據權利要求1所述的方法,其特征在于,利用n-gram模型,將待分詞文本進行分詞,得到第一文本包括:
通過對語料庫進行分析和計算,生成單字同時出現的頻度庫,并由所述頻度庫生成分詞詞典;
利用Viterbi算法,從所述分詞詞典中所有可能的字符串的分割情況中,選擇各個詞頻率乘積最高的路徑,作為所述第一文本。
4.根據權利要求1所述的方法,其特征在于,所述方法還包括:
當所述第一文本中未包括所述目標詞串,將所述第一文本作為分詞結果。
5.一種分詞裝置,其特征在于,所述裝置包括:
第一分詞模塊,用于利用n階馬爾科夫模型n-gram模型,將待分詞文本進行分詞,得到第一文本,所述n-gram模型用于消除分詞歧義,所述第一文本包括以空格為間隔的詞串;
詞典更新模塊,用于當所述第一文本中包括目標詞串時,將所述目標詞串添加至詞典,得到更新后的詞典,所述目標詞串為未存儲在所述詞典中的詞串,所述詞典用于存儲所有的詞串以及對應的估計概率;
第二分詞模塊,用于根據所述更新后的詞典,利用前向最大匹配分詞方法以及后向最大匹配分詞方法對所述第一文本按預設算法進行分詞,分別得到第二文本和第三文本,所述前向最大匹配分詞方法以及后向最大匹配分詞方法用于按照預設策略將第一文本的漢字串與所述更新后的詞典中的詞條進行匹配;
分詞結果選取模塊,用于從所述第二本文以及所述第三文本中選取詞長期望和詞長方差符合預設規則的文本作為分詞結果。
6.根據權利要求5所述的裝置,其特征在于,所述分詞結果選取模塊包括:
第一分詞結果選取單元,用于當所述第二本文以及所述第三文本中選取詞長期望不相同時,從所述第二本文以及所述第三文本中選取詞長期望大的文本作為分詞結果;或,
第二分詞結果選取單元,用于當所述第二本文以及所述第三文本中選取詞長期望相同時,從所述第二本文以及所述第三文本中選取詞長方差小的文本作為分詞結果。
7.根據權利要求5所述的裝置,其特征在于,所述第一分詞模塊包括:
分詞詞典生成單元,用于通過對語料庫進行分析和計算,生成單字同時出現的頻度庫,并由所述頻度庫生成分詞詞典;
第一文本選取單元,用于利用Viterbi算法,從所述分詞詞典中所有可能的字符串的分割情況中,選擇各個詞頻率乘積最高的路徑,作為所述第一文本。
8.根據權利要求5所述的裝置,其特征在于,所述分詞結果選取模塊還用于當所述第一文本中未包括所述目標詞串,將所述第一文本作為分詞結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州思必馳信息科技有限公司,未經蘇州思必馳信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410006570.1/1.html,轉載請聲明來源鉆瓜專利網。





