[發(fā)明專利]一種醫(yī)學實體詞的識別方法和裝置有效

申請?zhí)枺?/td>	202110841311.0	申請日：	2021-07-26
公開（公告）號：	CN113297852B	公開（公告）日：	2021-11-12
發(fā)明（設計）人：	全福亮;李麗;張奇	申請（專利權）人：	北京惠每云科技有限公司
主分類號：	G06F40/295	分類號：	G06F40/295;G06F16/31
代理公司：	北京超凡宏宇專利代理事務所(特殊普通合伙) 11463	代理人：	畢翔宇
地址：	100191 北京市海淀區(qū)***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種醫(yī)學實體詞識別方法裝置
鉆瓜網(wǎng) 技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本申請涉及自然語言處理技術領域，尤其涉及一種醫(yī)學實體詞的識別方法和裝置。該識別方法包括：構建用于表征醫(yī)學實體詞與自編碼向量之間對應關系的預訓練模型；利用二分類模型針對所構建的預訓練模型的輸出結(jié)果進行識別，并基于識別結(jié)果對預訓練模型進行微調(diào)，以生成標準詞自編碼模型；提取目標病例文本中的目標醫(yī)學實體詞的內(nèi)容特征；將內(nèi)容特征輸入標準詞自編碼模型，獲得目標醫(yī)學實體詞對應的第一自編碼向量；從醫(yī)學標準詞編碼索引庫中查找與第一自編碼向量對應的醫(yī)學標準詞，將醫(yī)學標準詞作為目標醫(yī)學實體詞對應的目標醫(yī)學標準詞。通過上述方式，能夠便于醫(yī)學信息共享，提高醫(yī)療領域之間交流的效率。

技術領域

本申請涉及自然語言處理技術領域，尤其涉及一種醫(yī)學實體詞的識別方法和裝置。

背景技術

臨床醫(yī)學術語的標準化是醫(yī)療信息共享的基礎，更是醫(yī)保實現(xiàn)全國統(tǒng)籌的重中之重。各類醫(yī)學術語來源眾多，書寫各異，同一個詞在不同的時間和場合下有著不同的含義，同一個概念在不同的體系中有著不同的表述方式。

當前國內(nèi)醫(yī)療領域內(nèi)的術語編碼體系較為繁雜，同一類醫(yī)學術語往往存在多個版本的編碼體系，如疾病編碼有五個版本：國家衛(wèi)健委統(tǒng)計信息中心發(fā)布的“國標版”，醫(yī)政醫(yī)管局發(fā)布的“臨床版”，以及北京、上海、廣東發(fā)布的三個地方版。這些因素給醫(yī)學信息的共享以及醫(yī)療領域的交流與合作帶來了障礙。因此，現(xiàn)有系統(tǒng)中的標準名或者口語化或者書寫文書的醫(yī)學名詞轉(zhuǎn)換成一個標準的體系非常重要。

現(xiàn)有的標準化技術主要有兩種：一種是通過人工標記的關鍵字來構建映射表，實現(xiàn)從文本中提取的命名實體組合到醫(yī)療標準名的映射，這種方式雖然已有標注的準確率高，但是靈活性較低，對新的書寫方式下需要映射的名稱召回不高；

另一種是基于分類算法的，通過距離計算、杰卡德系數(shù)等獲取標準詞映射候選集，通過分類模型來篩選出候選中最合適的結(jié)果，這種方式需要每個備選都通過模型判斷是否滿足映射條件，時耗較長，效率較低，而且備選生成的流程不一定可以選出最佳備選，后面模型的步驟最終一定無法給出最優(yōu)映射。

發(fā)明內(nèi)容

有鑒于此，本申請實施例至少提供一種醫(yī)學實體詞的識別方法和裝置，以克服現(xiàn)有技術中所存在的至少一種缺陷。

本申請主要包括以下幾個方面：

第一方面，本申請實施例提供一種醫(yī)學實體詞的識別方法，包括：

構建用于表征醫(yī)學實體詞與自編碼向量之間對應關系的預訓練模型；

利用二分類模型針對所構建的預訓練模型的輸出結(jié)果進行識別，并基于識別結(jié)果對預訓練模型進行微調(diào)，以生成標準詞自編碼模型；

提取目標病例文本中的目標醫(yī)學實體詞的內(nèi)容特征；

將內(nèi)容特征輸入標準詞自編碼模型，獲得目標醫(yī)學實體詞對應的第一自編碼向量；

從醫(yī)學標準詞編碼索引庫中查找與第一自編碼向量對應的醫(yī)學標準詞，將醫(yī)學標準詞作為目標醫(yī)學實體詞對應的目標醫(yī)學標準詞。

在一種可能的實施方式中，二分類模型是利用正訓練樣本和負訓練樣本訓練得到的，其中，正訓練樣本可通過以下方式獲得：從醫(yī)學標準詞庫中查找與病歷文本中的醫(yī)學實體詞的醫(yī)學意義相同的第一醫(yī)學標準詞；建立病例文本中的醫(yī)學實體詞與第一醫(yī)學標準詞之間的第一映射關系，以生成標準數(shù)據(jù)對；基于標準數(shù)據(jù)對形成正訓練樣本；其中，負訓練樣本可通過以下方式獲得：從醫(yī)學標準詞庫中查找與病歷文本中的醫(yī)學實體詞的醫(yī)學意義相近但詞意不同的第二醫(yī)學標準詞；建立病例文本中的醫(yī)學實體詞與第二醫(yī)學標準詞之間的第二映射關系，以生成標記數(shù)據(jù)對；基于標記數(shù)據(jù)對形成負訓練樣本。

下載完整專利技術內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于北京惠每云科技有限公司，未經(jīng)北京惠每云科技有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110841311.0/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。