[發(fā)明專利]一種實體修飾詞識別方法及裝置有效
| 申請?zhí)枺?/td> | 201910093768.0 | 申請日: | 2019-01-30 |
| 公開(公告)號: | CN109859813B | 公開(公告)日: | 2020-11-10 |
| 發(fā)明(設(shè)計)人: | 王李鵬 | 申請(專利權(quán))人: | 新華三大數(shù)據(jù)技術(shù)有限公司 |
| 主分類號: | G16H10/60 | 分類號: | G16H10/60;G06F40/295;G06F40/289 |
| 代理公司: | 北京超凡志成知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11371 | 代理人: | 王文紅 |
| 地址: | 450000 河南省鄭州市鄭州高新*** | 國省代碼: | 河南;41 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 實體 修飾詞 識別 方法 裝置 | ||
本申請實施例提供了一種實體修飾詞識別方法及裝置,包括:將待識別文本轉(zhuǎn)換為詞單元序列,得到多個詞單元,多個詞單元包括實體對應(yīng)的特征詞單元和非實體對應(yīng)的非特征詞單元;為詞單元序列中每個詞單元分配對應(yīng)的屬性標(biāo)簽,得到屬性標(biāo)簽序列;確定詞單元序列中每個詞單元對應(yīng)的至少一種修飾詞標(biāo)簽,得到多種修飾詞標(biāo)簽序列;基于詞單元序列、屬性標(biāo)簽序列以及預(yù)先訓(xùn)練的條件概率預(yù)測模型,確定詞單元序列被標(biāo)記為每種修飾詞標(biāo)簽序列的條件概率;將符合預(yù)設(shè)條件的條件概率對應(yīng)的修飾詞標(biāo)簽序列確定為目標(biāo)修飾詞標(biāo)簽序列,并基于目標(biāo)修飾詞標(biāo)簽序列,確定詞單元序列中每個特征詞單元的修飾詞類型。本申請實施例提高了對實體修飾詞的識別準(zhǔn)確度。
技術(shù)領(lǐng)域
本申請涉及大數(shù)據(jù)技術(shù)領(lǐng)域,具體而言,涉及一種實體修飾詞識別方法及裝置。
背景技術(shù)
在自然語言識別技術(shù)中,針對一些實體的修飾詞類型的識別至關(guān)重要,因為這些修飾詞類型往往能夠?qū)φZ義進(jìn)行關(guān)鍵影響,目前在對這些實體的修飾詞類型進(jìn)行識別時,具有一定的難度。
以電子病歷文本為例,醫(yī)生在描述患者的疾病和癥狀時,通常都表達(dá)出不同的確定程度,比如肯定發(fā)生的、肯定不發(fā)生的(否認(rèn)的)、可能發(fā)生等,這些能夠表達(dá)不同確定程度的詞就是用來描述患者疾病和病癥這類實體的一些修飾詞類型,這是診斷過程中的非常重要的信息,這一修飾詞類型的識別在電子病歷文本研究中被稱為實體修飾詞識別。
由于電子病歷中包含很多非結(jié)構(gòu)化文本數(shù)據(jù),例如病史記錄、病程記錄以及病歷小結(jié)等,導(dǎo)致現(xiàn)有技術(shù)對這種非結(jié)構(gòu)化文本中的實體修飾詞識別較為困難且識別準(zhǔn)確度較低。
發(fā)明內(nèi)容
有鑒于此,本申請的目的在于提供一種實體修飾詞識別方法及裝置,以提高對實體修飾詞的識別準(zhǔn)確度。
第一方面,本申請實施例提供了一種實體修飾詞識別方法,包括:
將待識別文本轉(zhuǎn)換為詞單元序列,其中,所述詞單元序列中包括多個詞單元,所述多個詞單元包括實體對應(yīng)的特征詞單元和非實體對應(yīng)的非特征詞單元;
為所述詞單元序列中每個詞單元分配對應(yīng)的屬性標(biāo)簽,得到屬性標(biāo)簽序列;
確定所述詞單元序列中每個詞單元對應(yīng)的至少一種修飾詞標(biāo)簽,得到多種修飾詞標(biāo)簽序列;
基于所述詞單元序列、所述屬性標(biāo)簽序列以及預(yù)先訓(xùn)練的條件概率預(yù)測模型,確定所述詞單元序列被標(biāo)記為每種修飾詞標(biāo)簽序列的條件概率;
將符合預(yù)設(shè)條件的條件概率對應(yīng)的修飾詞標(biāo)簽序列確定為目標(biāo)修飾詞標(biāo)簽序列,并基于所述目標(biāo)修飾詞標(biāo)簽序列,確定所述詞單元序列中每個特征詞單元的修飾詞類型。
第二方面,本申請實施例提供了一種實體修飾詞識別裝置,包括:
詞單元轉(zhuǎn)換模塊,用于將待識別文本轉(zhuǎn)換為詞單元序列,其中,所述詞單元序列中包括多個詞單元,所述多個詞單元包括實體對應(yīng)的特征詞單元和非實體對應(yīng)的非特征詞單元;
屬性標(biāo)簽確定模塊,用于為所述詞單元序列中每個詞單元分配對應(yīng)的屬性標(biāo)簽,得到屬性標(biāo)簽序列;
修飾詞標(biāo)簽確定模塊,用于確定所述詞單元序列中每個詞單元對應(yīng)的至少一種修飾詞標(biāo)簽,得到多種修飾詞標(biāo)簽序列;
條件概率確定模塊,用于基于所述詞單元序列、所述屬性標(biāo)簽序列以及預(yù)先訓(xùn)練的條件概率預(yù)測模型,確定所述詞單元序列被標(biāo)記為每種修飾詞標(biāo)簽序列的條件概率;
修飾詞類型確定模塊,用于將符合預(yù)設(shè)條件的條件概率對應(yīng)的修飾詞標(biāo)簽序列確定為目標(biāo)修飾詞標(biāo)簽序列,并基于所述目標(biāo)修飾詞標(biāo)簽序列,確定所述詞單元序列中每個特征詞單元的修飾詞類型。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于新華三大數(shù)據(jù)技術(shù)有限公司,未經(jīng)新華三大數(shù)據(jù)技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910093768.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





