[發(fā)明專利]醫(yī)療影像診斷報告實體提取方法、裝置及設(shè)備在審
| 申請?zhí)枺?/td> | 202111058362.2 | 申請日: | 2021-09-09 |
| 公開(公告)號: | CN113903422A | 公開(公告)日: | 2022-01-07 |
| 發(fā)明(設(shè)計)人: | 王紅熳;敖文喆;楊放春 | 申請(專利權(quán))人: | 北京郵電大學 |
| 主分類號: | G16H15/00 | 分類號: | G16H15/00;G06F40/211;G06F40/242;G06F40/295;G06F40/30;G06V10/764;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 北京金咨知識產(chǎn)權(quán)代理有限公司 11612 | 代理人: | 宋教花 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 醫(yī)療 影像 診斷 報告 實體 提取 方法 裝置 設(shè)備 | ||
本說明書實施例公開了一種醫(yī)療影像診斷報告實體提取方法、裝置及設(shè)備,所述方法將醫(yī)療影像診斷報告中的非結(jié)構(gòu)化文本利用離線訓練的命名實體識別模型,可以得到能夠表征醫(yī)療影像診斷報告文本中各個實體的標簽。命名實體識別模型使用了鄭碼編碼作為漢字特征,提升了醫(yī)療影像診斷報告中文本的特征表示的準確性,進而提升了醫(yī)療影像診斷報告的實體提取結(jié)果的準確性。并且,通過對命名實體識別模型輸出的帶標簽的文本進行影像診斷報告復雜實體后處理,獲得醫(yī)療影像診斷報告的實體提取結(jié)果,使提升了醫(yī)療影像診斷報告實體提取結(jié)果的統(tǒng)一性和準確性。
技術(shù)領(lǐng)域
本說明書屬于計算機技術(shù)領(lǐng)域,尤其涉及一種醫(yī)療影像診斷報告實體提取方法、裝置及設(shè)備。
背景技術(shù)
在醫(yī)療領(lǐng)域中,近年來,隨著科技的不斷發(fā)展,醫(yī)學影像學得到了快速發(fā)展,影像檢查對于疾病的發(fā)現(xiàn)與定位有著越來越重要的價值,能為臨床對疾病的診斷和治療方案的選擇提供準確的依據(jù)。醫(yī)學影像作為輔助診斷疾病最有效的手段之一每年會產(chǎn)生大量的圖像和診斷文本數(shù)據(jù),應用人工智能和數(shù)據(jù)挖掘技術(shù)分析醫(yī)學影像數(shù)據(jù)也是一大熱點問題。以往醫(yī)生對疾病的預防和診斷都來自經(jīng)驗,但以往的經(jīng)驗不一定完全正確,在某種程度上這也不利于醫(yī)學的發(fā)展和研究,如果能從大量的診斷數(shù)據(jù)中得出一些規(guī)則,挖掘出一些隱含的信息,輔以醫(yī)生的經(jīng)驗,一方面對于疾病的預防和診斷有很高的參考價值,另一方面也能充分地將醫(yī)療大數(shù)據(jù)技術(shù)應用到臨床實際中,從一定程度上促進醫(yī)學研究的發(fā)展。
目前,基本上所有的醫(yī)療影像診斷數(shù)據(jù)都是非結(jié)構(gòu)化的,從大量非結(jié)構(gòu)化數(shù)據(jù)中準確識別提取相關(guān)有用實體對后續(xù)的診斷數(shù)據(jù)挖掘分析工作十分重要。一般的,醫(yī)療影像診斷報告實體提取的關(guān)鍵步驟是進行文本識別,命名文本識別是自然語言處理中一個的基礎(chǔ)且重要的問題,傳統(tǒng)的基于規(guī)則的命名文本識別方法往往需要詞表、詞匯和領(lǐng)域知識,通過較為簡單的匹配的方式進行。這種方法對于復雜文本和新詞缺乏發(fā)現(xiàn)能力,并且往往需要領(lǐng)域?qū)<規(guī)兔S護知識庫,準確性可能會比較低。
因此,如何提供一種方案能夠準確提取醫(yī)療影像診斷報告是本領(lǐng)域亟需解決的技術(shù)問題。
發(fā)明內(nèi)容
本說明書實施例的目的在于提供一種醫(yī)療影像診斷報告實體提取方法、裝置及設(shè)備,提高了醫(yī)療影像診斷報告實體提取的準確性。
一方面,本說明書實施例提供了一種醫(yī)療影像診斷報告實體提取方法,所述方法包括:
獲取待處理醫(yī)療影像診斷報告中的非結(jié)構(gòu)化文本;
將所述非結(jié)構(gòu)化文本輸入到命名實體識別模型中,利用所述命名實體識別模型獲得所述非結(jié)構(gòu)化文本中各個字詞對應的標簽;其中,所述命名實體識別模型采用鄭碼編碼技術(shù)提取文本特征進行模型訓練獲得;
根據(jù)所述非結(jié)構(gòu)化文本中各個字詞對應的標簽,從帶標簽的非結(jié)構(gòu)化文本中提取出實體文本,并基于所述實體文本獲得所述待處理醫(yī)療影像診斷報告的實體提取結(jié)果。
進一步地,所述命名實體識別模型的訓練方法包括:
使用鄭碼編碼技術(shù)提取已標記的訓練文本樣本中的字特征和詞特征,獲得已標記的訓練文本樣本的鄭碼編碼特征向量;
對未標記的訓練文本樣本使用雙向編碼語言預訓練模型對未標記的訓練文本樣本進行訓練,獲得未標記的訓練文本樣本的增強特征向量;
將所述鄭碼編碼特征向量和所述增強特征向量進行拼接,獲得合并特征向量;
利用所述合并特征向量進行模型訓練得到所述命名實體識別模型。
進一步地,所述使用鄭碼編碼技術(shù)提取已標記的訓練文本樣本中的字特征和詞特征,包括:
獲取中文的鄭碼編碼表,所述鄭碼編碼表包括字的鄭碼編碼和詞的鄭碼編碼;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京郵電大學,未經(jīng)北京郵電大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111058362.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





