[發明專利]中文文本的分詞方法及裝置在審
| 申請號: | 201710580701.0 | 申請日: | 2017-07-17 |
| 公開(公告)號: | CN107402916A | 公開(公告)日: | 2017-11-28 |
| 發明(設計)人: | 晉彤 | 申請(專利權)人: | 廣州特道信息科技有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 廣州三環專利商標代理有限公司44202 | 代理人: | 梁順宜,郝傳鑫 |
| 地址: | 510000 廣東省廣州市越秀*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 中文 文本 分詞 方法 裝置 | ||
1.一種中文文本的分詞方法,其特征在于,包括步驟:
采集具有多元語義的網絡詞庫,根據不同領域對所述網絡詞庫進行訓練;
接收待分詞文本,根據所述網絡詞庫進行匹配處理后對所述待分詞文本進行初始分詞;
對所述待分詞文本進行初始分詞后,對所述待分詞文本進行特征提取,從而獲得所述待分詞文本的領域特征;
根據所述待分詞文本的領域特征,對所述待分詞文本的詞條進行權重調整從而獲得第一分詞結果;
將所述第一分詞結果中的長詞通過縮寫模型進行簡化處理獲得縮寫詞,將所述縮寫詞與所述多元語義的網絡詞庫進行匹配校驗。
2.如權利要求1所述的中文文本的分詞方法,其特征在于,還包括步驟:
通過CRF模型,識別所述待分詞文本的場景,根據所述待分詞文本的場景對所述第一分詞結果進行歧義識別,從而生成第二分詞結果;
將所述第二分詞結果中的長詞通過縮寫模型進行簡化處理獲得縮寫詞,將所述縮寫詞與所述多元語義的網絡詞庫進行匹配校驗。
3.如權利要求1所述的中文文本的分詞方法,其特征在于,采集具有多元語義的網絡詞庫具體為:
收集通用詞庫、實體詞庫和領域預料進行融合后生成多元語義的網絡詞庫。
4.一種中文文本的分詞裝置,其特征在于,包括:
采集模塊,用于采集具有多元語義的網絡詞庫,根據不同領域對所述網絡詞庫進行訓練;
初始分詞模塊,用于接收待分詞文本,根據所述網絡詞庫進行匹配處理后對所述待分詞文本進行初始分詞;
特征提取模塊,用于對所述待分詞文本進行初始分詞后,對所述待分詞文本進行特征提取,從而獲得所述待分詞文本的領域特征;
第一分詞模塊,用于根據所述待分詞文本的領域特征,對所述待分詞文本的詞條進行權重調整從而獲得第一分詞結果;
第一縮寫模塊,用于將所述第一分詞結果中的長詞通過縮寫模型進行簡化處理獲得縮寫詞,將所述縮寫詞與所述多元語義的網絡詞庫進行匹配校驗。
5.如權利要求4所述的中文文本的分詞裝置,其特征在于,還包括:
第二分詞模塊,用于通過CRF模型,識別所述待分詞文本的場景,根據所述待分詞文本的場景對所述第一分詞結果進行歧義識別,從而生成第二分詞結果;
第二縮寫模塊,用于將所述第二分詞結果中的長詞通過縮寫模型進行簡化處理獲得縮寫詞,將所述縮寫詞與所述多元語義的網絡詞庫進行匹配校驗。
6.如權利要求4所述的中文文本的分詞裝置,其特征在于,所述采集模塊具體用于收集通用詞庫、實體詞庫和領域預料進行融合后生成多元語義的網絡詞庫。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州特道信息科技有限公司,未經廣州特道信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710580701.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:多層語義的網絡詞庫的生成方法及裝置
- 下一篇:藏文短文本情感分析方法及裝置





