[發(fā)明專利]一種文本分詞方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201910094380.2 | 申請(qǐng)日: | 2019-01-30 |
| 公開(公告)號(hào): | CN109829162B | 公開(公告)日: | 2022-04-08 |
| 發(fā)明(設(shè)計(jì))人: | 王李鵬 | 申請(qǐng)(專利權(quán))人: | 新華三大數(shù)據(jù)技術(shù)有限公司 |
| 主分類號(hào): | G06F40/289 | 分類號(hào): | G06F40/289;G06F16/33;G06K9/62 |
| 代理公司: | 北京超凡志成知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11371 | 代理人: | 王文紅 |
| 地址: | 450000 河南省鄭州市高新技*** | 國(guó)省代碼: | 河南;41 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文本 分詞 方法 裝置 | ||
本申請(qǐng)?zhí)峁┝艘环N文本分詞方法及裝置,其中,該方法包括:將待分詞文本轉(zhuǎn)換為字符序列;將字符序列中包含的滿足預(yù)設(shè)長(zhǎng)度的字符串與預(yù)先構(gòu)建的詞典中的標(biāo)準(zhǔn)詞進(jìn)行匹配,確定與標(biāo)準(zhǔn)詞匹配的匹配字符串,為字符序列中匹配字符串的每個(gè)字符和除匹配字符串之外的每個(gè)字符分別分配對(duì)應(yīng)的詞典標(biāo)簽,得到詞典標(biāo)簽序列;確定字符序列中每個(gè)字符對(duì)應(yīng)的至少一種分詞標(biāo)簽,得到多種分詞標(biāo)簽序列;根據(jù)字符序列、詞典標(biāo)簽序列以及預(yù)先訓(xùn)練的條件概率預(yù)測(cè)模型,確定字符序列被標(biāo)記為每種分詞標(biāo)簽序列的條件概率;將符合預(yù)設(shè)條件的條件概率對(duì)應(yīng)的分詞標(biāo)簽序列確定為目標(biāo)分詞標(biāo)簽序列,并基于目標(biāo)分詞標(biāo)簽序列對(duì)待分詞文本進(jìn)行分詞處理。
技術(shù)領(lǐng)域
本申請(qǐng)涉及大數(shù)據(jù)技術(shù)領(lǐng)域,具體而言,涉及一種文本分詞方法及裝置。
背景技術(shù)
在自然語(yǔ)言處理技術(shù)中,分詞技術(shù)是其他語(yǔ)言處理的基礎(chǔ),分詞的準(zhǔn)確性對(duì)其它語(yǔ)言處理來(lái)說(shuō)十分重要。目前,在對(duì)文本進(jìn)行分析處理時(shí),針對(duì)包含有非結(jié)構(gòu)化數(shù)據(jù)的文本,在進(jìn)行分詞處理時(shí)具有一定的難度。
以電子病歷為例,由于電子病歷中包含很多非結(jié)構(gòu)化數(shù)據(jù),例如病史記錄、病程記錄以及病歷小結(jié)等,對(duì)這類非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行自動(dòng)分詞是對(duì)電子病歷分析和挖掘的最基礎(chǔ)同時(shí)也是非常艱巨的一個(gè)任務(wù)。
由此可見,目前亟需一種能夠快速且準(zhǔn)確地對(duì)包含有非結(jié)構(gòu)化數(shù)據(jù)的文本進(jìn)行分詞的技術(shù)方案。
發(fā)明內(nèi)容
有鑒于此,本申請(qǐng)的目的在于提供一種文本分詞方法及裝置,可以快速且準(zhǔn)確地對(duì)包含有非結(jié)構(gòu)化數(shù)據(jù)的文本進(jìn)行分詞。
第一方面,本申請(qǐng)?zhí)峁┮环N文本分詞方法,包括:
將所述待分詞文本轉(zhuǎn)換為字符序列;
將所述字符序列中包含的滿足預(yù)設(shè)長(zhǎng)度的字符串與預(yù)先構(gòu)建的詞典中的標(biāo)準(zhǔn)詞進(jìn)行匹配,確定與所述標(biāo)準(zhǔn)詞匹配的匹配字符串,為所述字符序列中匹配字符串的每個(gè)字符和除所述匹配字符串之外的每個(gè)字符分別分配對(duì)應(yīng)的詞典標(biāo)簽,得到詞典標(biāo)簽序列;
確定所述字符序列中每個(gè)字符對(duì)應(yīng)的至少一種分詞標(biāo)簽,得到多種分詞標(biāo)簽序列;
根據(jù)所述字符序列、所述詞典標(biāo)簽序列以及預(yù)先訓(xùn)練的條件概率預(yù)測(cè)模型,確定所述字符序列被標(biāo)記為每種分詞標(biāo)簽序列的條件概率;
將符合預(yù)設(shè)條件的條件概率對(duì)應(yīng)的分詞標(biāo)簽序列確定為目標(biāo)分詞標(biāo)簽序列,并基于所述目標(biāo)分詞標(biāo)簽序列對(duì)所述待分詞文本進(jìn)行分詞處理。
第二方面,本申請(qǐng)?zhí)峁┮环N文本分詞裝置,包括:
轉(zhuǎn)換模塊,用于將所述待分詞文本轉(zhuǎn)換為字符序列;
第一確定模塊,用于將所述字符序列中包含的滿足預(yù)設(shè)長(zhǎng)度的字符串與預(yù)先構(gòu)建的詞典中的標(biāo)準(zhǔn)詞進(jìn)行匹配,確定與所述標(biāo)準(zhǔn)詞匹配的匹配字符串,為所述字符序列中匹配字符串的每個(gè)字符和除所述匹配字符串之外的每個(gè)字符分別分配對(duì)應(yīng)的詞典標(biāo)簽,得到詞典標(biāo)簽序列;
第二確定模塊,用于確定所述字符序列中每個(gè)字符對(duì)應(yīng)的至少一種分詞標(biāo)簽,得到多種分詞標(biāo)簽序列;
條件概率預(yù)測(cè)模塊,用于根據(jù)所述字符序列、所述詞典標(biāo)簽序列以及預(yù)先訓(xùn)練的條件概率預(yù)測(cè)模型,確定所述字符序列被標(biāo)記為每種分詞標(biāo)簽序列的條件概率;
分詞處理模塊,用于將符合預(yù)設(shè)條件的條件概率對(duì)應(yīng)的分詞標(biāo)簽序列確定為目標(biāo)分詞標(biāo)簽序列,并基于所述目標(biāo)分詞標(biāo)簽序列對(duì)所述待分詞文本進(jìn)行分詞處理。
第三方面,本申請(qǐng)實(shí)施例還提供一種電子設(shè)備,包括:處理器、存儲(chǔ)器和總線,所述存儲(chǔ)器存儲(chǔ)有所述處理器可執(zhí)行的機(jī)器可讀指令,當(dāng)電子設(shè)備運(yùn)行時(shí),所述處理器與所述存儲(chǔ)器之間通過(guò)總線通信,所述機(jī)器可讀指令被所述處理器執(zhí)行時(shí)執(zhí)行上述第一方面,或第一方面的任一種可能的實(shí)施方式中文本分詞方法的步驟。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于新華三大數(shù)據(jù)技術(shù)有限公司,未經(jīng)新華三大數(shù)據(jù)技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910094380.2/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





