[發(fā)明專(zhuān)利]一種消歧分詞方法、系統(tǒng)、裝置及存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202111408726.5 | 申請(qǐng)日: | 2021-11-24 |
| 公開(kāi)(公告)號(hào): | CN114154494A | 公開(kāi)(公告)日: | 2022-03-08 |
| 發(fā)明(設(shè)計(jì))人: | 蔡文婷;夏偉;張龍武;高永銘;黃兆鵬;周海 | 申請(qǐng)(專(zhuān)利權(quán))人: | 南方電網(wǎng)數(shù)字電網(wǎng)研究院有限公司;南方電網(wǎng)深圳數(shù)字電網(wǎng)研究院有限公司 |
| 主分類(lèi)號(hào): | G06F40/284 | 分類(lèi)號(hào): | G06F40/284;G06F40/166 |
| 代理公司: | 廣州嘉權(quán)專(zhuān)利商標(biāo)事務(wù)所有限公司 44205 | 代理人: | 洪銘福 |
| 地址: | 510520 廣東省廣州市黃*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 分詞 方法 系統(tǒng) 裝置 存儲(chǔ) 介質(zhì) | ||
1.一種消歧分詞方法,其特征在于,包括:
獲取待分詞文本;
對(duì)所述待分詞文本進(jìn)行分句處理,得到至少一個(gè)單句;
根據(jù)預(yù)先配置的中文字典樹(shù),對(duì)所述單句進(jìn)行分詞處理;
獲取所有可能的分詞結(jié)果;
采用分詞最優(yōu)解短路算法計(jì)算各個(gè)所述分詞結(jié)果的分值;
篩選所述分值最高的分詞結(jié)果為消歧分詞結(jié)果。
2.根據(jù)權(quán)利要求1所述的一種消歧分詞方法,其特征在于,所述對(duì)所述待分詞文本進(jìn)行分句處理,得到至少一個(gè)單句具體為:
利用分詞器,以標(biāo)點(diǎn)符號(hào)或者空白字符作為分隔符進(jìn)行分句,得到至少一個(gè)單句。
3.根據(jù)權(quán)利要求1所述的一種消歧分詞方法,其特征在于,所述根據(jù)預(yù)先配置的中文字典樹(shù),對(duì)所述單句進(jìn)行分詞處理這一步驟,包括:
根據(jù)預(yù)先配置的中文字典樹(shù),利用正向最大匹配算法對(duì)所述單句進(jìn)行分詞處理,得到第一組分詞結(jié)果;
根據(jù)預(yù)先配置的中文字典樹(shù),利用逆向最大匹配算法對(duì)所述單句進(jìn)行分詞處理,得到第二組分詞結(jié)果;
根據(jù)預(yù)先配置的中文字典樹(shù),利用雙向最大匹配法對(duì)所述單句進(jìn)行分詞處理,得到第三組分詞結(jié)果;
根據(jù)預(yù)先配置的中文字典樹(shù),利用設(shè)立切分標(biāo)志法對(duì)所述單句進(jìn)行分詞處理,得到第四組分詞結(jié)果;
根據(jù)預(yù)先配置的中文字典樹(shù),利用最佳匹配法對(duì)所述單句進(jìn)行分詞處理,得到第五組分詞結(jié)果。
4.根據(jù)權(quán)利要求3所述的一種消歧分詞方法,其特征在于,所述根據(jù)預(yù)先配置的中文字典樹(shù),對(duì)所述單句進(jìn)行分詞處理之后,還包括:
將所述第一組分詞結(jié)果與所述第二組分詞結(jié)果、第三組分詞結(jié)果、第四組分詞結(jié)果、第五組分詞結(jié)果合并,得到分詞結(jié)果合并集;
刪除所述分詞結(jié)果合并集中重復(fù)出現(xiàn)的分詞結(jié)果,得到所述單句對(duì)應(yīng)的所有可能的分詞結(jié)果。
5.根據(jù)權(quán)利要求1所述的一種消歧分詞方法,其特征在于,采用分詞最優(yōu)解短路算法計(jì)算各個(gè)所述分詞結(jié)果的分值這一步驟,包括:
根據(jù)詞典,找出所述單句中所有的可能詞,所述分詞結(jié)果由不同的所述可能詞構(gòu)成;
評(píng)估各個(gè)所述可能詞的分值;
根據(jù)各個(gè)所述可能詞的分值,統(tǒng)計(jì)得到各個(gè)所述分詞結(jié)果的分值。
6.一種消歧分詞系統(tǒng),其特征在于,包括:
第一獲取模塊,用于獲取待分詞文本;
分句處理模塊,用于對(duì)所述待分詞文本進(jìn)行分句處理,得到至少一個(gè)單句;
分詞處理模塊,用于根據(jù)預(yù)先配置的中文字典樹(shù),對(duì)所述單句進(jìn)行分詞處理;
第二獲取模塊,獲取所有可能的分詞結(jié)果;
計(jì)算模塊,用于采用分詞最優(yōu)解短路算法計(jì)算各個(gè)所述分詞結(jié)果的分值;
篩選模塊,用于篩選所述分值最高的分詞結(jié)果為消歧分詞結(jié)果。
7.根據(jù)權(quán)利要求6所述的一種消歧分詞系統(tǒng),其特征在于,所述分句處理模塊具體用于:利用分詞器,以標(biāo)點(diǎn)符號(hào)或者空白字符作為分隔符進(jìn)行分句,得到至少一個(gè)單句。
8.根據(jù)權(quán)利要求6所述的一種消歧分詞系統(tǒng),其特征在于,所述分詞處理模塊包括:
第一分詞處理單元,用于根據(jù)預(yù)先配置的中文字典樹(shù),利用正向最大匹配算法對(duì)所述單句進(jìn)行分詞處理,得到第一組分詞結(jié)果;
第二分詞處理單元,用于根據(jù)預(yù)先配置的中文字典樹(shù),利用逆向最大匹配算法對(duì)所述單句進(jìn)行分詞處理,得到第二組分詞結(jié)果;
第三分詞處理單元,用于根據(jù)預(yù)先配置的中文字典樹(shù),利用雙向最大匹配法對(duì)所述單句進(jìn)行分詞處理,得到第三組分詞結(jié)果;
第四分詞處理單元,用于根據(jù)預(yù)先配置的中文字典樹(shù),利用設(shè)立切分標(biāo)志法對(duì)所述單句進(jìn)行分詞處理,得到第四組分詞結(jié)果;
第五分詞處理單元,用于根據(jù)預(yù)先配置的中文字典樹(shù),利用最佳匹配法對(duì)所述單句進(jìn)行分詞處理,得到第五組分詞結(jié)果。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于南方電網(wǎng)數(shù)字電網(wǎng)研究院有限公司;南方電網(wǎng)深圳數(shù)字電網(wǎng)研究院有限公司,未經(jīng)南方電網(wǎng)數(shù)字電網(wǎng)研究院有限公司;南方電網(wǎng)深圳數(shù)字電網(wǎng)研究院有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111408726.5/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





