[發明專利]醫學關系提取方法及裝置有效
| 申請號: | 202110109117.3 | 申請日: | 2021-01-27 |
| 公開(公告)號: | CN112820411B | 公開(公告)日: | 2022-07-29 |
| 發明(設計)人: | 俞聲;林毓聰 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G16H50/70 | 分類號: | G16H50/70;G06F16/34;G06F16/35;G06F16/36;G06F40/211 |
| 代理公司: | 北京鴻元知識產權代理有限公司 11327 | 代理人: | 董永輝;曹素云 |
| 地址: | 10008*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 醫學 關系 提取 方法 裝置 | ||
本發明公開一種醫學關系提取方法及裝置,包括以下步驟:從醫學電子病歷中統計設定時間窗口中醫學概念對出現的次數,獲得醫學概念對中兩個醫學概念向量;利用兩個醫學概念與知識庫匹配,獲得兩個醫學概念之間的關聯關系,從而構建關系概念三元組;根據所述關系概念三元組從醫學文本集中挖掘得到多個概念語句;構建訓練樣本集,訓練樣本集包括正樣本和負樣本,每個樣本結構是由關系概念三元組、兩個醫學概念向量、概念語句構成;利用訓練樣本集訓練融合模型,獲得訓練后的融合模型;利用訓練后的融合模型進行醫學關系提取。本發明可以源源不斷地挖掘醫學概念之間的關系。引入章節標題構成概念語句,增加了有效訓練樣。
技術領域
本發明涉及一種信息技術領域,尤其涉及一種考慮醫學文本與醫學電子病歷的醫學關系提取方法及裝置。
背景技術
近年來,已經出現了很多用于關系挖掘的模型,包括方式匹配和機器學習。隨著深度學習的飛速發展,研究者在關系提取中開始使用神經網絡模型,將詞嵌入和位置嵌入的向量作為輸入,并使用了遞歸神經網絡。最初在機器翻譯中使用的句子級注意力機制現在也應用于關系提取,以自動捕獲重要的單詞和語句,成為了模型中的必要機制。但是,這些有監督的模型缺乏實際醫療關系數據作為訓練。由于人工標記的成本高昂,神經網絡沒有足夠的樣本語句,因此遠程監督被提出用以解決此問題。遠監督是指如果一個語句包含具有已知關系的任何一對實體,則該語句必當代表完全相同的關系。應用遠監督時,首先通過半結構化或手動方法提取實體關系,然后獲得包含這些實體對的語句。在該假設下,可以將此類語句標記為兩個實體之間的關系,然后將其用于訓練模型。
盡管遠監督有助于減輕訓練數據的缺乏問題,但是仍然存在一些缺點。首先該假設降低了模型提取更多有用信息的能力。如果將共指消歧方法應用于識別實體的代詞,則可以部分改善語句的多樣性。但是,這些方法仍然具有不可忽略的錯誤,可能會損害樣本的質量。當涉及到網頁和教科書中的文本時,僅使用共指消歧還不足以彌補信息的丟失。例如,“2型糖尿病”詞條中的“癥狀還可能包括饑餓感增加,感到疲倦和無法治愈的疼痛”,該語句包含2型糖尿病可能引起何種癥狀的信息,但沒有2型糖尿病本身的名稱或其任何參考。
在實際醫學關系挖掘時,往往有人工提取方式和自動提取方式。人工提取的方式耗時費力,且難以及時對新關系進行自動更新。而采用自動提取方式,又可以分為規則匹配方法與模型匹配方法。如果是采用規則匹配的方法,獲取到的關系和醫學知識的涵蓋面和準確率均有明顯不足。而若是希望用機器學習或深度學習進行自動關系提取時,并沒有現存的可供目標關系挖掘的訓練集與模型的存在,因此無法對目標關系進行快速與并行的挖掘。所以能夠有方案做到類似的事,但是無法達到該發明的準確性、及時性和廣泛性。
發明內容
本發明提出了一套醫學知識挖掘的技術,能夠大規模的從醫學文本中海量挖掘包含醫學知識的文本。醫學電子病歷中蘊含著醫生對疾病的認知和判斷,而電子病歷與自由文本是兩種非同源的數據形式,因此能夠在醫學關系提取工作中相互補充,本發明設計并驗證了從醫學百科、醫學論文和教科書中挖掘高質量實體關系的完整工作流。因此,本發明在建立和豐富醫學關系方面非常有幫助。
本發明的技術方案如下:
一種醫學關系提取方法,包括以下步驟:
從醫學電子病歷中統計設定時間窗口中醫學概念對出現的次數,獲得醫學概念對中兩個醫學概念向量,所述醫學概念對是指同時出現在同一設定時間窗口中的兩個醫學概念;
利用所述兩個醫學概念與知識庫匹配,獲得兩個醫學概念之間的關聯關系,從而構建關系概念三元組;
根據所述關系概念三元組從醫學文本集中挖掘得到多個概念語句;
構建訓練樣本集,所述訓練樣本集包括正樣本和負樣本,每個樣本結構是由所述關系概念三元組、所述兩個醫學概念向量、概念語句構成;
利用所述訓練樣本集訓練融合模型,獲得訓練后的融合模型;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110109117.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種高效芯片燒錄機
- 下一篇:一種微創介入式人工心臟軸流血泵





