[發(fā)明專利]一種分詞方法、裝置、設(shè)備及可讀存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202011054725.0 | 申請(qǐng)日: | 2020-09-25 |
| 公開(kāi)(公告)號(hào): | CN112131866A | 公開(kāi)(公告)日: | 2020-12-25 |
| 發(fā)明(設(shè)計(jì))人: | 白安琪;蔣寧;王洪斌;吳海英;趙立軍 | 申請(qǐng)(專利權(quán))人: | 馬上消費(fèi)金融股份有限公司 |
| 主分類號(hào): | G06F40/216 | 分類號(hào): | G06F40/216;G06F40/289 |
| 代理公司: | 北京銀龍知識(shí)產(chǎn)權(quán)代理有限公司 11243 | 代理人: | 許靜;王丹 |
| 地址: | 404100 重慶市渝北區(qū)*** | 國(guó)省代碼: | 重慶;50 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 分詞 方法 裝置 設(shè)備 可讀 存儲(chǔ) 介質(zhì) | ||
本發(fā)明公開(kāi)了一種分詞方法、裝置、設(shè)備及可讀存儲(chǔ)介質(zhì),涉及自然語(yǔ)言處理技術(shù)領(lǐng)域,以提高分詞的合理性。該方法包括:獲取第一文本,第二文本以及預(yù)設(shè)的詞模;分別獲取第一文本的第一分詞文本以及第二文本的第二分詞文本;對(duì)于第二分詞文本中的目標(biāo)詞,從第一分詞文本中獲取至少一個(gè)待檢測(cè)語(yǔ)言片段,其中,每個(gè)待檢測(cè)語(yǔ)言片段均包括含有所述目標(biāo)詞的目標(biāo)待檢測(cè)語(yǔ)言片段;將至少一個(gè)所述目標(biāo)待檢測(cè)語(yǔ)言片段和所述詞模進(jìn)行匹配,得到匹配結(jié)果,根據(jù)所述匹配結(jié)果和所述目標(biāo)詞在所述第一分詞文本中的初始的詞邊界分隔方式,確定所述第一分詞文本的最終的詞邊界分隔方式。本發(fā)明實(shí)施例可提高分詞的合理性。
技術(shù)領(lǐng)域
本發(fā)明涉及自然語(yǔ)言處理技術(shù)領(lǐng)域,尤其涉及一種分詞方法、裝置、設(shè)備及可讀存儲(chǔ)介質(zhì)。
背景技術(shù)
未登錄詞的識(shí)別與歧義消解是中文分詞的兩個(gè)難題。分詞結(jié)果的準(zhǔn)確性,通常會(huì)在NLP(Nature Language Processing,自然語(yǔ)言處理)的下游任務(wù)中得以檢驗(yàn)。不同任務(wù)對(duì)于分詞結(jié)果的嚴(yán)苛程度不同,面臨的分詞難題也各異。因此,在不同的下游任務(wù)中,需要有針對(duì)性地解決中文分詞難題。
其中,未登錄詞,也稱新詞,即沒(méi)有被收錄在分詞詞表中但必須切分出來(lái)的詞,包括各類專有名詞(人名、地名、企業(yè)名等)、縮寫(xiě)詞、新增詞匯等。
摘要文本作為一種較為常見(jiàn)的NLP下游任務(wù),旨在將海量且動(dòng)態(tài)更新的信息精煉化,其可能包括大量未登錄詞,且未登錄詞作為關(guān)鍵性詞語(yǔ)出現(xiàn)在摘要文本中的概率也極高。
目前摘要文本的生成都是基于已有的分詞技術(shù),包括基于詞典/檢索/統(tǒng)計(jì)的方法進(jìn)行文本分詞后生成的。但是,現(xiàn)有的分詞方法大多受到種子詞典的收錄范圍、統(tǒng)計(jì)語(yǔ)料庫(kù)的覆蓋面的限制,從而導(dǎo)致了現(xiàn)有的分詞方法的分詞不合理。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供一種分詞方法、裝置、設(shè)備及可讀存儲(chǔ)介質(zhì),以提高分詞的合理性。
第一方面,本發(fā)明實(shí)施例提供了一種分詞方法,包括:
獲取第一文本,第二文本以及預(yù)設(shè)的詞模,其中,所述第二文本為根據(jù)所述第一文本生成的摘要文本;
分別獲取所述第一文本的第一分詞文本以及所述第二文本的第二分詞文本;
對(duì)于所述第二分詞文本中的目標(biāo)詞,從所述第一分詞文本中獲取至少一個(gè)待檢測(cè)語(yǔ)言片段,其中,每個(gè)待檢測(cè)語(yǔ)言片段均包括含有所述目標(biāo)詞的目標(biāo)待檢測(cè)語(yǔ)言片段;
將至少一個(gè)所述目標(biāo)待檢測(cè)語(yǔ)言片段和所述詞模進(jìn)行匹配,得到匹配結(jié)果;
根據(jù)所述匹配結(jié)果和所述目標(biāo)詞在所述第一分詞文本中的初始的詞邊界分隔方式,確定所述第一分詞文本的最終的詞邊界分隔方式。
第二方面,本發(fā)明實(shí)施例還提供一種分詞裝置,包括:
第一獲取模塊,用于獲取第一文本,第二文本以及預(yù)設(shè)的詞模,其中,所述第二文本為根據(jù)所述第一文本生成的摘要文本;
第二獲取模塊,用于分別獲取所述第一文本的第一分詞文本以及所述第二文本的第二分詞文本;
第三獲取模塊,用于對(duì)于所述第二分詞文本中的目標(biāo)詞,從所述第一分詞文本中獲取至少一個(gè)待檢測(cè)語(yǔ)言片段,其中,每個(gè)待檢測(cè)語(yǔ)言片段均包括含有所述目標(biāo)詞的目標(biāo)待檢測(cè)語(yǔ)言片段;
第一匹配模塊,用于對(duì)于所述至少一個(gè)待檢測(cè)語(yǔ)言片段中的目標(biāo)待檢測(cè)語(yǔ)言片段,將所述目標(biāo)待檢測(cè)語(yǔ)言片段和所述詞模進(jìn)行匹配,得到匹配結(jié)果;
第一確定模塊,用于根據(jù)所述至少一個(gè)待檢測(cè)語(yǔ)言片段中的匹配結(jié)果和所述目標(biāo)詞在所述第一分詞文本中的初始的詞邊界分隔方式,確定所述第一分詞文本的最終的詞邊界分隔方式。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于馬上消費(fèi)金融股份有限公司,未經(jīng)馬上消費(fèi)金融股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011054725.0/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 傳感設(shè)備、檢索設(shè)備和中繼設(shè)備
- 簽名設(shè)備、檢驗(yàn)設(shè)備、驗(yàn)證設(shè)備、加密設(shè)備及解密設(shè)備
- 色彩調(diào)整設(shè)備、顯示設(shè)備、打印設(shè)備、圖像處理設(shè)備
- 驅(qū)動(dòng)設(shè)備、定影設(shè)備和成像設(shè)備
- 發(fā)送設(shè)備、中繼設(shè)備和接收設(shè)備
- 定點(diǎn)設(shè)備、接口設(shè)備和顯示設(shè)備
- 傳輸設(shè)備、DP源設(shè)備、接收設(shè)備以及DP接受設(shè)備
- 設(shè)備綁定方法、設(shè)備、終端設(shè)備以及網(wǎng)絡(luò)側(cè)設(shè)備
- 設(shè)備、主設(shè)備及從設(shè)備
- 設(shè)備向設(shè)備轉(zhuǎn)發(fā)





