[發(fā)明專利]醫(yī)學(xué)實(shí)體的分類提取方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 202110905944.3 | 申請(qǐng)日: | 2021-08-09 |
| 公開(公告)號(hào): | CN113343703B | 公開(公告)日: | 2021-10-29 |
| 發(fā)明(設(shè)計(jì))人: | 史鵬濤;劉嬌;張奇 | 申請(qǐng)(專利權(quán))人: | 北京惠每云科技有限公司 |
| 主分類號(hào): | G06F40/295 | 分類號(hào): | G06F40/295;G06F40/242;G16H10/60 |
| 代理公司: | 北京超凡宏宇專利代理事務(wù)所(特殊普通合伙) 11463 | 代理人: | 畢翔宇 |
| 地址: | 100191 北京市海淀區(qū)*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 醫(yī)學(xué) 實(shí)體 分類 提取 方法 裝置 電子設(shè)備 存儲(chǔ) 介質(zhì) | ||
1.一種醫(yī)學(xué)實(shí)體的分類提取方法,其特征在于,所述分類提取方法包括:
獲取醫(yī)療數(shù)據(jù)中的待識(shí)別文本;
確定所述待識(shí)別文本的實(shí)體特征,所述實(shí)體特征包括單字向量、雙字位置、雙字頻率、切詞特征和小粒度特征;其中,所述單字向量指的是所述待識(shí)別文本中的每個(gè)單字在預(yù)先構(gòu)建好的字向量詞典中所對(duì)應(yīng)的向量;所述雙字位置指的是所述待識(shí)別文本中的每個(gè)雙字在預(yù)先構(gòu)建好的雙字醫(yī)學(xué)字典中的位置標(biāo)記;所述雙字頻率指的是所述待識(shí)別文本中的每個(gè)雙字在醫(yī)療數(shù)據(jù)中出現(xiàn)的次數(shù);所述切詞特征指的是通過切詞工具對(duì)所述待識(shí)別文本進(jìn)行切詞處理后記錄得到的切詞位置在待識(shí)別文本中的位置標(biāo)記;所述小粒度特征指的是所述待識(shí)別文本中的小粒度詞經(jīng)過拆分后得到的小粒度單字及其對(duì)應(yīng)標(biāo)簽在預(yù)先構(gòu)建好的小粒度單字標(biāo)簽詞典中的位置標(biāo)記;其中,所述小粒度單字標(biāo)簽詞典是基于小粒度詞典得到的;
將確定出的實(shí)體特征輸入至預(yù)先訓(xùn)練好的分類提取模型中,得到所述待識(shí)別文本中的醫(yī)學(xué)實(shí)體對(duì)應(yīng)的至少一個(gè)標(biāo)簽,以從所述待識(shí)別文本中提取出所述至少一個(gè)標(biāo)簽對(duì)應(yīng)的醫(yī)學(xué)實(shí)體;其中,所述分類提取模型是通過文本樣本的標(biāo)注數(shù)據(jù)、偽標(biāo)簽數(shù)據(jù)、小粒度詞典和字向量詞典訓(xùn)練得到的,所述偽標(biāo)簽數(shù)據(jù)、所述小粒度詞典和所述字向量詞典是通過將文本樣本輸入至預(yù)先訓(xùn)練好的特征提取模型而確定出的,所述特征提取模型是通過所述文本樣本的標(biāo)注數(shù)據(jù)訓(xùn)練得到的。
2.根據(jù)權(quán)利要求1所述的分類提取方法,其特征在于,通過以下步驟訓(xùn)練所述特征提取模型:
從醫(yī)療數(shù)據(jù)中確定未標(biāo)注的文本樣本和所述文本樣本的標(biāo)注數(shù)據(jù);
將所述未標(biāo)注的文本樣本輸入至預(yù)先構(gòu)建好的特征提取模型中,輸出多組實(shí)體位置,其中,每組實(shí)體位置依次包括一個(gè)實(shí)體開始位置和一個(gè)實(shí)體結(jié)束位置;
將輸出的實(shí)體開始位置和實(shí)體結(jié)束位置之間的字符組成一個(gè)醫(yī)學(xué)實(shí)體;
將得到的每個(gè)醫(yī)學(xué)實(shí)體與所述文本樣本的標(biāo)注數(shù)據(jù)中對(duì)應(yīng)標(biāo)注的醫(yī)學(xué)實(shí)體進(jìn)行比對(duì),在比對(duì)結(jié)果均一致的情況下,得到訓(xùn)練好的特征提取模型。
3.根據(jù)權(quán)利要求1所述的分類提取方法,其特征在于,所述偽標(biāo)簽數(shù)據(jù)、所述小粒度詞典和所述字向量詞典是通過將文本樣本輸入至預(yù)先訓(xùn)練好的特征提取模型而確定出的步驟,包括:
將所述文本樣本輸入至預(yù)先訓(xùn)練好的特征提取模型中,輸出多組實(shí)體位置,其中,每組實(shí)體位置依次包括一個(gè)實(shí)體開始位置和一個(gè)實(shí)體結(jié)束位置,將所述實(shí)體開始位置和所述實(shí)體結(jié)束位置之間的字符組成一個(gè)醫(yī)學(xué)實(shí)體;
基于預(yù)先標(biāo)注好的字符與標(biāo)簽之間的映射關(guān)系,確定所述醫(yī)學(xué)實(shí)體對(duì)應(yīng)的偽標(biāo)簽數(shù)據(jù);
將所述醫(yī)學(xué)實(shí)體經(jīng)過校正得出小粒度詞以及該小粒度詞對(duì)應(yīng)的標(biāo)簽,確定得到的小粒度詞以及其對(duì)應(yīng)的標(biāo)簽組成小粒度詞典;
將預(yù)先構(gòu)建好的單字醫(yī)學(xué)字典輸入至預(yù)先訓(xùn)練好的特征提取模型中,獲取多個(gè)單字對(duì)應(yīng)的高維單字向量,并對(duì)高維單字向量進(jìn)行降維,得到由單字以及與每個(gè)單字對(duì)應(yīng)的低維單字向量組成的字向量詞典。
4.根據(jù)權(quán)利要求1所述的分類提取方法,其特征在于,通過以下步驟訓(xùn)練所述分類提取模型:
根據(jù)所述文本樣本的標(biāo)注數(shù)據(jù)確定第一實(shí)體特征,以及根據(jù)所述偽標(biāo)簽數(shù)據(jù)確定第二實(shí)體特征,其中,所述第一實(shí)體特征和所述第二實(shí)體特征中均包括的小粒度特征要結(jié)合所述小粒度詞典確定得出,所述第一實(shí)體特征和所述第二實(shí)體特征中均包括的單字向量要結(jié)合所述字向量詞典確定得出;
將所述第一實(shí)體特征和所述第二實(shí)體特征分別輸入至預(yù)先構(gòu)建好的分類提取模型中,分別得到所述文本樣本中的醫(yī)學(xué)實(shí)體對(duì)應(yīng)的多個(gè)第一標(biāo)簽和多個(gè)第二標(biāo)簽;
針對(duì)所述多個(gè)第一標(biāo)簽,將所述多個(gè)第一標(biāo)簽中的每個(gè)第一標(biāo)簽與所述文本樣本的標(biāo)注數(shù)據(jù)中對(duì)應(yīng)的標(biāo)簽進(jìn)行比對(duì),若比對(duì)結(jié)果不一致,則調(diào)節(jié)所述分類提取模型的模型參數(shù),直至更新后的多個(gè)第一標(biāo)簽中的每個(gè)第一標(biāo)簽均與所述文本樣本的標(biāo)注數(shù)據(jù)中對(duì)應(yīng)的標(biāo)簽進(jìn)行比對(duì)的比對(duì)結(jié)果一致;
針對(duì)所述多個(gè)第二標(biāo)簽,將所述多個(gè)第二標(biāo)簽中的每個(gè)第二標(biāo)簽與所述文本樣本的偽標(biāo)簽數(shù)據(jù)中對(duì)應(yīng)的標(biāo)簽進(jìn)行比對(duì),若比對(duì)結(jié)果不一致,則調(diào)節(jié)所述分類提取模型的模型參數(shù),直至更新后的多個(gè)第二標(biāo)簽中的每個(gè)第二標(biāo)簽均與所述文本樣本的偽標(biāo)簽數(shù)據(jù)中對(duì)應(yīng)的標(biāo)簽進(jìn)行比對(duì)的比對(duì)結(jié)果一致;
在對(duì)所述多個(gè)第一標(biāo)簽和所述多個(gè)第二標(biāo)簽訓(xùn)練完后,確定對(duì)所述分類提取模型訓(xùn)練完成。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京惠每云科技有限公司,未經(jīng)北京惠每云科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110905944.3/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 將醫(yī)學(xué)設(shè)備自動(dòng)整合到醫(yī)學(xué)設(shè)施網(wǎng)絡(luò)的方法和設(shè)備
- 醫(yī)學(xué)詢問細(xì)化系統(tǒng)、方法、裝置及包括醫(yī)學(xué)詢問系統(tǒng)的工作站
- 將醫(yī)學(xué)設(shè)備自動(dòng)整合到醫(yī)學(xué)設(shè)施網(wǎng)絡(luò)的方法和設(shè)備
- 基于人工智能的醫(yī)學(xué)影像分類處理系統(tǒng)及方法
- 一種醫(yī)學(xué)圖像系統(tǒng)
- 醫(yī)學(xué)知識(shí)圖譜構(gòu)建方法及裝置、存儲(chǔ)介質(zhì)和電子設(shè)備
- 一種實(shí)現(xiàn)醫(yī)學(xué)編碼映射的方法、裝置及設(shè)備
- 醫(yī)學(xué)影像的分類方法、醫(yī)學(xué)影像的檢索方法和裝置
- 一種醫(yī)學(xué)圖像處理方法、醫(yī)學(xué)圖像識(shí)別方法及裝置
- 醫(yī)學(xué)圖像標(biāo)記方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 網(wǎng)絡(luò)實(shí)體監(jiān)控方法及裝置
- 一種實(shí)體鏈接方法及裝置
- 一種基于深度學(xué)習(xí)的實(shí)體鏈接方法
- 實(shí)體發(fā)現(xiàn)方法及裝置
- 一種數(shù)據(jù)處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種實(shí)體關(guān)系識(shí)別方法、裝置及設(shè)備
- 尾實(shí)體鏈接方法、裝置、服務(wù)器及存儲(chǔ)介質(zhì)
- 基于實(shí)體對(duì)齊的屬性融合方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種實(shí)體召回方法及相關(guān)裝置
- 實(shí)體表征模型的訓(xùn)練和表征方法、電子設(shè)備和存儲(chǔ)介質(zhì)





