[發(fā)明專利]醫(yī)療實體關系抽取方法和裝置在審
| 申請?zhí)枺?/td> | 202110197630.2 | 申請日: | 2021-02-22 |
| 公開(公告)號: | CN112883736A | 公開(公告)日: | 2021-06-01 |
| 發(fā)明(設計)人: | 羅立剛;張旸;婁杰 | 申請(專利權)人: | 零氪科技(北京)有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G16H10/60 |
| 代理公司: | 北京知果之信知識產權代理有限公司 11541 | 代理人: | 卜榮麗;李志剛 |
| 地址: | 100089 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 醫(yī)療 實體 關系 抽取 方法 裝置 | ||
本申請公開了一種醫(yī)療實體關系抽取方法和裝置。所述方法包括獲取醫(yī)療電子病歷;基于聯合抽取模型的BERT部分對所述醫(yī)療電子病歷進行實體抽取,得到所述醫(yī)療電子病歷對應的每個實體;基于聯合抽取模型的多頭選擇機制部分對所述醫(yī)療電子病歷對應的每個實體進行關系預測,得到每個所述實體對應的關系分類結果。從而解決相關技術中醫(yī)療實體關系判別能力低,導致聯合抽取的實體關系準確性低的問題。
技術領域
本申請涉及數據處理技術領域,具體而言,涉及一種醫(yī)療實體關系抽取方法和裝置。
背景技術
當前,國內絕大部分醫(yī)院的病歷以自然語言記錄,這些非結構化的病歷無法直接被機器使用,需要通過自然語言處理(NLP)技術轉換為結構化信息,以便機器處理。隨著醫(yī)療信息化的發(fā)展,精準快速的從海量電子醫(yī)療病歷(EMR)中抽取關鍵信息,構造符合醫(yī)學規(guī)范的結構化模型,成為EMR數據二次使用的關鍵步驟。病歷結構化主要基于NLP中的信息抽取技術,涉及實體抽取、關系抽取、實體標準化等。其中實體和關系抽取是病歷結構化的關鍵步驟。
實體關系抽取(Entity and Relation Extraction,ERE)是信息抽取的關鍵任務之一。ERE是級聯任務,分為兩個子任務:實體抽取和關系抽取。常見的處理方法分為兩大類:第一類是流水線模式,先抽取實體、然后再進行關系分類,這種方式存在誤差積累,忽略了實體和關系兩個任務之間的內在聯系,同時存在實體冗余計算等問題;第二類是聯合抽取模式,實體和關系共享同一個網絡編碼,緩解了誤差傳播。綜上,當今ERE的主流方法是聯合抽取,通常可轉化為多任務學習或結構化預測問題。此外,基于聯合抽取的ERE任務主要大致可以從三個角度進行劃分:1)不同的標注框架;2)不同的抽取順序;3)是否共享編碼層。
近年來,預訓練語言模型已成為NLP領域不可或缺的一個“大殺器”。例如,2018年來自Google的BERT一經發(fā)布就登頂了眾多NLP任務榜單的榜首。因此,將BERT等預訓練語言模型作為ERE任務的基礎編碼器進行finetune(微調)已經成為一個首要步驟。對于醫(yī)療實體關系聯合抽取來說,由于BERT是基于通用語料進行的語言模型預訓練,將預訓練模型BERT直接應用于醫(yī)療文本會存在領域適配問題。已有的醫(yī)療實體關系技術并沒有基于領域適配的中文醫(yī)療預訓練模型進行聯合抽取。
此外,近年來基于多頭選擇機制的聯合抽取模型被廣泛應用于實體關系抽取中,首先進行實體抽取、再進行關系分類。多頭選擇機制是針對實體對構建一個關系分類器,即每個實體對只選取當前實體片段的最后一個字符進行關系預測。事實上,如何提取文本特征構建關系分類器是提升模型性能表現的關鍵之處。已有的技術方法并沒有考慮如何將BERT預訓練模型與多頭選擇機制進行融合,以強化模型關系判別能力。
在實施本申請實施例的過程中,發(fā)明人發(fā)現相關技術至少存在以下問題:
相關技術中醫(yī)療實體關系判別能力低,導致聯合抽取的實體關系準確性低。
發(fā)明內容
本申請的主要目的在于提供一種醫(yī)療實體關系抽取方法和裝置,以解決相關技術中醫(yī)療實體關系判別能力低,導致聯合抽取的實體關系準確性低的問題。
為了實現上述目的,第一方面,本申請實施例提供了一種醫(yī)療實體關系抽取方法,該方法包括:
獲取醫(yī)療電子病歷;
基于聯合抽取模型的BERT部分對所述醫(yī)療電子病歷進行實體抽取,得到所述醫(yī)療電子病歷對應的每個實體;
基于聯合抽取模型的多頭選擇機制部分對所述醫(yī)療電子病歷對應的每個實體進行關系預測,得到每個所述實體對應的關系分類結果。
可選的,所述基于聯合抽取模型的多頭選擇機制部分對所述醫(yī)療電子病歷對應的每個實體進行關系預測,包括:
獲取所述醫(yī)療電子病歷對應的每個實體對應的主語subjet表征和賓語object表征;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于零氪科技(北京)有限公司,未經零氪科技(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110197630.2/2.html,轉載請聲明來源鉆瓜專利網。





