[發明專利]一種基于對抗網絡+眾包的電子病歷語料構建方法在審
| 申請號: | 202011226864.7 | 申請日: | 2020-11-05 |
| 公開(公告)號: | CN112349370A | 公開(公告)日: | 2021-02-09 |
| 發明(設計)人: | 李麗雙;秦雪洋;李做成;袁光輝 | 申請(專利權)人: | 大連理工大學 |
| 主分類號: | G16H15/00 | 分類號: | G16H15/00;G06F21/62;G06F16/28;G06F16/35;G06F40/284;G06N3/04;G06N3/08 |
| 代理公司: | 大連理工大學專利中心 21200 | 代理人: | 溫福雪;侯明遠 |
| 地址: | 116024 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 對抗 網絡 電子 病歷 語料 構建 方法 | ||
本發明屬于數據生成技術領域,提供了一種基于對抗網絡+眾包的電子病歷語料構建方法,主要包括:(1)數據去隱私化;(2)基于專家標注少量數據和眾包數據的對抗模仿一致性學習策略;(3)基于對抗網絡的實體和實體關系抽取。與現有技術相比,本發明具有成本低、質量高以及數據更新及時等優點。具體表現為本發明采用對抗模仿學習策略將眾包數據逐漸學習成專家標注的高質量數據模式,從而對眾包數據進行校正標注,以此來獲取大規模高質量的語料,這在解決專家標注成本高、通用方法標注質量差及知識庫對齊標注方法數據更新不及時等問題提供了一個有效的語料標注方法,同時,這對醫療領域的研究者也提供了一個語料構建方法,有助于他們開展后續的醫學研究。
技術領域
本發明屬于數據生成技術領域,涉及一種對電子病歷如疾病、部位、癥狀、檢查及治療等五類實體及其實體關系進行高質量標注的語料構建方法,具體包括:基于生成對抗網絡語義一致性模仿學習策略和基于對抗網絡的實體及實體關系抽取方法。
背景技術
電子病歷語料中保存的是完整的患者診療信息,一個完整患者診療信息包括對患者癥狀的檢查及診斷、對患者的治療以及患者的康復情況,具體在電子病歷語料中主要表現為疾病、部位、癥狀、檢查及治療等五類實體,而構建電子病歷語料主要是識別上述五類實體及其實體關系。
與通用領域不同,電子病歷文本包含的內容專業性極強,人工標注雖然質量高,但過程極為復雜且標注成本極高,這就導致電子病歷高質量標注數據極少。對此,中國醫學科學院信息研究所的胡佳慧團隊開發了一套中文電子病歷語義標注平臺,并給出了清晰明快的標注頁面,使得人工標注的難度得到一定的降低,借此利用類似眾包標注的方法獲取語料,但該策略沒有充分利用機器學習的優勢,以此獲得大量的標注數據依然需要大量的人力物力。此后,學者們開始嘗試利用深度學習半監督的方法來進行語料構建,如Triguero等人嘗試了Self-labeled的半監督方法;Wang等人則采用了基于圖網絡的半監督學習方法,然而,半監督學習的方法獲取的語料除了部分標注數據外完全沒有人工干預,但得到的標注數據質量難以保證;Boukkouri等另辟蹊徑,嘗試將通用領域的語料與EMLO模型結合來訓練詞向量,使模型可以從中學習到更多特定領域的特征分布,從而提高模型在特定領域數據上的性能。除此之外,Mike等人將Freebase作為知識庫并利用遠程監督的方法對無標簽的數據進行標注,且取得了不錯的效果。然而,通用領域的文本與電子病歷文本在語言表述和行文方式上都大相徑庭,利用通用領域的文本擴充語料極大降低了電子病歷文本的密度,稀釋了電子病歷文本的獨有特點,使得訓練得到的標注數據分布于電子病歷高質量標注數據分布相去甚遠,最終降低模型的整體標注性能。
當前,一種相對適用的電子病歷語料構建方法是利用統一醫學語言系統UMLS(Unified Medical Language System)標準對電子病歷數據進行匹配、提取進而構建相對完善的語料。如Reimer等人利用UMLS標準采用一個4步映射過程:1)自動源碼匹配;2)精確文本匹配;3)模糊匹配;以及4)人工匹配等來構建語料。不可否認,這樣的方法在一定程度上可以完成電子病歷語料的構建,但是對于新型出現的疾病實體(如新型冠狀病毒2019-nCov)在UMLS中并沒有相應的實體匹配,這無疑降低了該方法構建電子病歷語料的準確性和及時性。
因此,現階段對于電子病歷語料的構建還沒有相對完善的方法,通用方法的構建并未考慮電子病歷領域的特殊性,這樣獲得的語料含有更多的噪聲,對后續的任務也會造成負面的影響;基于UMLS的方法雖然在一定程度上可以避免領域特殊性的影響,但并不能解決電子病歷更新的新穎性和及時性,而且UMLS是英文知識庫,中文缺少相應的大規模知識庫,因此,對中文的電子病歷語料構建并不能采用類似的方法。
發明內容
本發明提供了一種電子病歷語料構建方法,實現從大量原始的電子病歷數據中抽取醫學實體及實體關系的功能,解決以往電子病歷語料構建的準確性低、噪聲大等問題,提高了現有電子病歷語料構建的準確性和完善性。
本發明的技術方案:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連理工大學,未經大連理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011226864.7/2.html,轉載請聲明來源鉆瓜專利網。





