[發(fā)明專利]一種醫(yī)學實體詞的識別方法和裝置有效
| 申請?zhí)枺?/td> | 202110841311.0 | 申請日: | 2021-07-26 |
| 公開(公告)號: | CN113297852B | 公開(公告)日: | 2021-11-12 |
| 發(fā)明(設計)人: | 全福亮;李麗;張奇 | 申請(專利權)人: | 北京惠每云科技有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F16/31 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 畢翔宇 |
| 地址: | 100191 北京市海淀區(qū)*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 醫(yī)學 實體詞 識別 方法 裝置 | ||
本申請涉及自然語言處理技術領域,尤其涉及一種醫(yī)學實體詞的識別方法和裝置。該識別方法包括:構建用于表征醫(yī)學實體詞與自編碼向量之間對應關系的預訓練模型;利用二分類模型針對所構建的預訓練模型的輸出結(jié)果進行識別,并基于識別結(jié)果對預訓練模型進行微調(diào),以生成標準詞自編碼模型;提取目標病例文本中的目標醫(yī)學實體詞的內(nèi)容特征;將內(nèi)容特征輸入標準詞自編碼模型,獲得目標醫(yī)學實體詞對應的第一自編碼向量;從醫(yī)學標準詞編碼索引庫中查找與第一自編碼向量對應的醫(yī)學標準詞,將醫(yī)學標準詞作為目標醫(yī)學實體詞對應的目標醫(yī)學標準詞。通過上述方式,能夠便于醫(yī)學信息共享,提高醫(yī)療領域之間交流的效率。
技術領域
本申請涉及自然語言處理技術領域,尤其涉及一種醫(yī)學實體詞的識別方法和裝置。
背景技術
臨床醫(yī)學術語的標準化是醫(yī)療信息共享的基礎,更是醫(yī)保實現(xiàn)全國統(tǒng)籌的重中之重。各類醫(yī)學術語來源眾多,書寫各異,同一個詞在不同的時間和場合下有著不同的含義,同一個概念在不同的體系中有著不同的表述方式。
當前國內(nèi)醫(yī)療領域內(nèi)的術語編碼體系較為繁雜,同一類醫(yī)學術語往往存在多個版本的編碼體系,如疾病編碼有五個版本:國家衛(wèi)健委統(tǒng)計信息中心發(fā)布的“國標版”,醫(yī)政醫(yī)管局發(fā)布的“臨床版”,以及北京、上海、廣東發(fā)布的三個地方版。這些因素給醫(yī)學信息的共享以及醫(yī)療領域的交流與合作帶來了障礙。因此,現(xiàn)有系統(tǒng)中的標準名或者口語化或者書寫文書的醫(yī)學名詞轉(zhuǎn)換成一個標準的體系非常重要。
現(xiàn)有的標準化技術主要有兩種:一種是通過人工標記的關鍵字來構建映射表,實現(xiàn)從文本中提取的命名實體組合到醫(yī)療標準名的映射,這種方式雖然已有標注的準確率高,但是靈活性較低,對新的書寫方式下需要映射的名稱召回不高;
另一種是基于分類算法的,通過距離計算、杰卡德系數(shù)等獲取標準詞映射候選集,通過分類模型來篩選出候選中最合適的結(jié)果,這種方式需要每個備選都通過模型判斷是否滿足映射條件,時耗較長,效率較低,而且備選生成的流程不一定可以選出最佳備選,后面模型的步驟最終一定無法給出最優(yōu)映射。
發(fā)明內(nèi)容
有鑒于此,本申請實施例至少提供一種醫(yī)學實體詞的識別方法和裝置,以克服現(xiàn)有技術中所存在的至少一種缺陷。
本申請主要包括以下幾個方面:
第一方面,本申請實施例提供一種醫(yī)學實體詞的識別方法,包括:
構建用于表征醫(yī)學實體詞與自編碼向量之間對應關系的預訓練模型;
利用二分類模型針對所構建的預訓練模型的輸出結(jié)果進行識別,并基于識別結(jié)果對預訓練模型進行微調(diào),以生成標準詞自編碼模型;
提取目標病例文本中的目標醫(yī)學實體詞的內(nèi)容特征;
將內(nèi)容特征輸入標準詞自編碼模型,獲得目標醫(yī)學實體詞對應的第一自編碼向量;
從醫(yī)學標準詞編碼索引庫中查找與第一自編碼向量對應的醫(yī)學標準詞,將醫(yī)學標準詞作為目標醫(yī)學實體詞對應的目標醫(yī)學標準詞。
在一種可能的實施方式中,二分類模型是利用正訓練樣本和負訓練樣本訓練得到的,其中,正訓練樣本可通過以下方式獲得:從醫(yī)學標準詞庫中查找與病歷文本中的醫(yī)學實體詞的醫(yī)學意義相同的第一醫(yī)學標準詞;建立病例文本中的醫(yī)學實體詞與第一醫(yī)學標準詞之間的第一映射關系,以生成標準數(shù)據(jù)對;基于標準數(shù)據(jù)對形成正訓練樣本;其中,負訓練樣本可通過以下方式獲得:從醫(yī)學標準詞庫中查找與病歷文本中的醫(yī)學實體詞的醫(yī)學意義相近但詞意不同的第二醫(yī)學標準詞;建立病例文本中的醫(yī)學實體詞與第二醫(yī)學標準詞之間的第二映射關系,以生成標記數(shù)據(jù)對;基于標記數(shù)據(jù)對形成負訓練樣本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京惠每云科技有限公司,未經(jīng)北京惠每云科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110841311.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 將醫(yī)學設備自動整合到醫(yī)學設施網(wǎng)絡的方法和設備
- 醫(yī)學詢問細化系統(tǒng)、方法、裝置及包括醫(yī)學詢問系統(tǒng)的工作站
- 將醫(yī)學設備自動整合到醫(yī)學設施網(wǎng)絡的方法和設備
- 基于人工智能的醫(yī)學影像分類處理系統(tǒng)及方法
- 一種醫(yī)學圖像系統(tǒng)
- 醫(yī)學知識圖譜構建方法及裝置、存儲介質(zhì)和電子設備
- 一種實現(xiàn)醫(yī)學編碼映射的方法、裝置及設備
- 醫(yī)學影像的分類方法、醫(yī)學影像的檢索方法和裝置
- 一種醫(yī)學圖像處理方法、醫(yī)學圖像識別方法及裝置
- 醫(yī)學圖像標記方法、裝置、設備及存儲介質(zhì)





