[發(fā)明專利]中文文本的分詞方法及裝置在審
| 申請?zhí)枺?/td> | 201710580701.0 | 申請日: | 2017-07-17 |
| 公開(公告)號: | CN107402916A | 公開(公告)日: | 2017-11-28 |
| 發(fā)明(設計)人: | 晉彤 | 申請(專利權)人: | 廣州特道信息科技有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 廣州三環(huán)專利商標代理有限公司44202 | 代理人: | 梁順宜,郝傳鑫 |
| 地址: | 510000 廣東省廣州市越秀*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 中文 文本 分詞 方法 裝置 | ||
技術領域
本發(fā)明涉及計算機領域,尤其涉及一種中文文本的分詞方法及裝置。
背景技術
中文分詞指將一個漢字序列切分成一個一個單獨的詞。中文分詞在信息檢索、機器翻譯和語音識別等領域起重要作用,是中文語音處理過程中必不可少的一個環(huán)節(jié)。一般地,由于存在分詞歧義的問題,傳統(tǒng)的基于詞典的機械分詞方法的準確度達不到100%。例如,“南京市長江大橋”可以分成“南京市長江大橋”,也可以分成“南京市長江大橋”。如果不依賴其他知識,兩種分詞方式似乎都是合理的
現(xiàn)有的分詞技術依賴的詞庫是二維的,最多只有詞性和簡單的概率權重。在算法模型上,沒聯(lián)系上下文進行歧義識別處理。目前國內(nèi)的詞庫的縮寫詞條是人工添加的,比較機械。
發(fā)明內(nèi)容
本發(fā)明實施例的目的是提供一種中文文本的分詞方法及裝置,能有效解決現(xiàn)有詞庫較為簡單不能有效分詞的問題,準確性高。
為實現(xiàn)上述目的,本發(fā)明實施例提供了一種中文文本的分詞方法,包括步驟:
采集具有多元語義的網(wǎng)絡詞庫,根據(jù)不同領域?qū)λ鼍W(wǎng)絡詞庫進行訓練;
接收待分詞文本,根據(jù)所述網(wǎng)絡詞庫進行匹配處理后對所述待分詞文本進行初始分詞;
對所述待分詞文本進行初始分詞后,對所述待分詞文本進行特征提取,從而獲得所述待分詞文本的領域特征;
根據(jù)所述待分詞文本的領域特征,對所述待分詞文本的詞條進行權重調(diào)整從而獲得第一分詞結果;
將所述第一分詞結果中的長詞通過縮寫模型進行簡化處理獲得縮寫詞,將所述縮寫詞與所述多元語義的網(wǎng)絡詞庫進行匹配校驗。
與現(xiàn)有技術相比,本發(fā)明公開的中文文本的分詞方法通過采集具有多元語義的網(wǎng)絡詞庫,根據(jù)不同領域?qū)λ鼍W(wǎng)絡詞庫進行訓練,然后接收待分詞文本,根據(jù)所述網(wǎng)絡詞庫進行匹配處理后對所述待分詞文本進行初始分詞,對所述待分詞文本進行初始分詞后,對所述待分詞文本進行特征提取,從而獲得所述待分詞文本的領域特征,再根據(jù)所述待分詞文本的領域特征,對所述待分詞文本的詞條進行權重調(diào)整從而獲得第一分詞結果,接著將所述第一分詞結果中的長詞通過縮寫模型進行簡化處理獲得縮寫詞,將所述縮寫詞與所述多元語義的網(wǎng)絡詞庫進行匹配校驗,能有效解決現(xiàn)有詞庫較為簡單不能有效分詞的問題,能得到準確性更高的分詞結果。
作為上述方案的改進,還包括步驟:
通過CRF模型,識別所述待分詞文本的場景,根據(jù)所述待分詞文本的場景對所述第一分詞結果進行歧義識別,從而生成第二分詞結果;
將所述第二分詞結果中的長詞通過縮寫模型進行簡化處理獲得縮寫詞,將所述縮寫詞與所述多元語義的網(wǎng)絡詞庫進行匹配校驗。
作為上述方案的改進,采集具有多元語義的網(wǎng)絡詞庫具體為:
收集通用詞庫、實體詞庫和領域預料進行融合后生成多元語義的網(wǎng)絡詞庫。
本發(fā)明實施例還提供了一種中文文本的分詞裝置,包括:
采集模塊,用于采集具有多元語義的網(wǎng)絡詞庫,根據(jù)不同領域?qū)λ鼍W(wǎng)絡詞庫進行訓練;
初始分詞模塊,用于接收待分詞文本,根據(jù)所述網(wǎng)絡詞庫進行匹配處理后對所述待分詞文本進行初始分詞;
特征提取模塊,用于對所述待分詞文本進行初始分詞后,對所述待分詞文本進行特征提取,從而獲得所述待分詞文本的領域特征;
第一分詞模塊,用于根據(jù)所述待分詞文本的領域特征,對所述待分詞文本的詞條進行權重調(diào)整從而獲得第一分詞結果;
第一縮寫模塊,用于將所述第一分詞結果中的長詞通過縮寫模型進行簡化處理獲得縮寫詞,將所述縮寫詞與所述多元語義的網(wǎng)絡詞庫進行匹配校驗。
與現(xiàn)有技術相比,本發(fā)明公開的中文文本的分詞裝置通過采集具有多元語義的網(wǎng)絡詞庫,根據(jù)不同領域?qū)λ鼍W(wǎng)絡詞庫進行訓練,然后接收待分詞文本,根據(jù)所述網(wǎng)絡詞庫進行匹配處理后對所述待分詞文本進行初始分詞,對所述待分詞文本進行初始分詞后,對所述待分詞文本進行特征提取,從而獲得所述待分詞文本的領域特征,再根據(jù)所述待分詞文本的領域特征,對所述待分詞文本的詞條進行權重調(diào)整從而獲得第一分詞結果,接著將所述第一分詞結果中的長詞通過縮寫模型進行簡化處理獲得縮寫詞,將所述縮寫詞與所述多元語義的網(wǎng)絡詞庫進行匹配校驗,能有效解決現(xiàn)有詞庫較為簡單不能有效分詞的問題,能得到準確性更高的分詞結果。
作為上述方案的改進,還包括:
第二分詞模塊,用于通過CRF模型,識別所述待分詞文本的場景,根據(jù)所述待分詞文本的場景對所述第一分詞結果進行歧義識別,從而生成第二分詞結果;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州特道信息科技有限公司,未經(jīng)廣州特道信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710580701.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





