[發明專利]一種基于對抗網絡+眾包的電子病歷語料構建方法在審
| 申請號: | 202011226864.7 | 申請日: | 2020-11-05 |
| 公開(公告)號: | CN112349370A | 公開(公告)日: | 2021-02-09 |
| 發明(設計)人: | 李麗雙;秦雪洋;李做成;袁光輝 | 申請(專利權)人: | 大連理工大學 |
| 主分類號: | G16H15/00 | 分類號: | G16H15/00;G06F21/62;G06F16/28;G06F16/35;G06F40/284;G06N3/04;G06N3/08 |
| 代理公司: | 大連理工大學專利中心 21200 | 代理人: | 溫福雪;侯明遠 |
| 地址: | 116024 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 對抗 網絡 電子 病歷 語料 構建 方法 | ||
1.一種基于對抗網絡+眾包的電子病歷語料構建方法,主要有三部分組成:(1)數據去隱私化;(2)基于專家標注少量數據和眾包數據的對抗模仿一致性學習策略;(3)基于對抗網絡的實體和實體關系抽取;其特征在于,步驟如下:
(1)數據去隱私化
根據是否與疾病存在相關性將隱私數據分為兩類:與疾病相關的隱私數據和非相關的隱私數據;為了保證數據提取的準確性和統一性,兩類不同的隱私數據去隱私化的具體方法如下:
1)與疾病相關的隱私數據
采用Hash映射的方法對隱私數據進行編碼;對于任意不同類型的隱私數據用不同的關鍵字key來進行表示,相應地,關鍵字key的Hash映射new_repkey表示如下:
new_repkey=Hash(key)
對于不同類型的隱私數據采用不同的Hash函數,因此對于與疾病相關的隱私數據Rlist=[key1,key2,...,keyn]經過去隱私化為:
new_rep=[Hash1(key1),Hash2(key2),...,Hashn(keyn)]
2)與疾病非相關的隱私數據
對于與疾病非相關的隱私數據NRlist=[key11,key22,...,keynn]采用去隱私化方法,即用mask關鍵字進行直接替換,具體的數學表達形式如下所示:
(2)基于專家標注少量數據和眾包數據的對抗模仿一致性學習策略
基于專家標注的少量數據和眾包數據的對抗模擬一致性學習方法,過程如下:
1)專家和眾包數據的標注
在電子病歷數據去隱私化之后,按照1:100的比列劃分為兩份,一份用于專家標注,一百份則用于眾包,標注使用的工具是YEDDA語料標注平臺;將電子病歷實體分為五類:疾病、部位、癥狀、檢查和治療,其之間的實體關系分為七類:疾病-疾病關系、疾病-部位關系、疾病-癥狀關系、治療-疾病關系、檢查-疾病關系、檢查-癥狀關系和治療-癥狀關系;
2)特征抽取及融合
首先從大規模未標注語料訓練相應的詞向量,使之包含更豐富的語義特征,此外,為了保證特征信息的完整性,在詞特征的基礎上還融入了實體位置信息及實體關系信息,詳細如下:
2.1)詞特征
生成候選實體的詞向量特征、生成候選實體直線上下文的詞向量特征,包括詞向量wi∈Rn×m和詞性標注信息POSi∈Rn×r,其中n表示第i個句子的長度,m表示詞嵌入的維度,r表示詞性標注信息嵌入的維度;因此,詞特征表示為詞向量和詞性標注信息的組合,即詞特征:
WPOSi=[wi;POSi]∈Rn×(m+r)
2.2)實體位置特征
對于實體位置特征采用one-hot編碼進行嵌入,0表示該位置不是實體,1則表示該位置是實體,則實體位置特征表示為EPi∈Rn×1,且對必有e=0ore=1;
2.3)實體關系特征
不同于詞特征和實體位置特征,實體關系特征涉及到兩個實體關系之間的特征,為了表示實體之間的關系,采用ERi∈Rn×n的二維矩陣來表示一句話中實體之間的關系,對于矩陣中第r行和第j列的元素erj∈EP則表示第r個詞和第j詞之間的實體關系;由于電子病歷中一共包含七種實體關系,因此,實體關系的取值從1到7分別表示不同的實體關系,相應地,ERi中的元素有8種取值0-7,其中0表示沒有實體關系;
2.4)不同特征融合
為了保證不同特征的有效性和獨立性,采用簡單有效的連接方式來融合不同的特征,即:
FF=cat(WPOSi;EPi;ERi)∈Rn×(m+r+n+1)
3)兩類數據的對抗模仿學習
和以往數據生成的方式不同,對抗模仿學習旨在讓含有噪聲的數據及未標注的數據來學習已經標注好的數據分布,當兩類數據真假難辨,即無法判斷數據是來自專家標注還是眾包標注時,此時說明兩類數據的分布是一致的或可以說含噪聲的數據已經學到了真實的數據分布,從而達到數據標注的目的,具體過程如算法1:
算法1:專家和眾包兩類數據對抗模仿一致性學習策略
在算法1中,專家標注數據和眾包標注數據的對抗模仿學習是按照1:1比例進行的,為了防止眾包數據一次性過多,造成學習困難而導致學習數據分布不均衡的問題,從而影響生成器G和分類器C的參數;
另外,生成器G是由一個雙向的LSTM和一個Attention層組成的,對于輸入數據表示FF或FF',首先經過一個前項的LSTM編碼,表示為:或相應地,經過后項LSTM編碼表示為或在獲取前項編碼和后項編碼之后,雙向LSTM編碼表示如下:
或
在獲得雙向LSTM的編碼之后,生成器G還需要經過一個Attention層,Attention層是為了使經過雙向LSTM獲取的數據分布更加顯著均衡;Attention的具體計算方式如下:
對于雙向LSTM任意時刻i的輸入FFi或FF'i,上一時刻的輸出hi-1∈h或h'i-1∈h'有:
ei=fMLP(FFi;hi-1)
其中,fMLP是一層感知機MLP,用于耦合當前時刻的輸入和上一時刻輸出的得分函數,αi表示當前i時刻的權重系數;
在獲取雙向LSTM的輸出和Attention的權重系數之后,則生成器G的輸出Gout表示如下:
Gout=α×h
其中,α=[α0,α1,...,αi,...,αT],h=[h0,h1,...,hi,...,hT]
除此之外,判別器D是一個二分類器,是支持向量機SVM或是Logistic回歸函數,但不管是哪類方法,在對抗模仿的過程中都要保證判別器D的準確率不高于某一個閾值δ;顧分類器C也是一個分類器,不同于判別器D,分類器C是一個softmax多分類器,由于用專家標注的數據是帶標簽的數據,因此分類器C是有監督的訓練,對于分類實體來說,分類器C是一個5(實體類別)+1(非實體類別)類別的分類器,相應地,對于分類實體關系,分類器C是一個7(實體關系類別)+1(非實體關系類別)類別的分類器;
(3)基于對抗網絡的實體和實體關系抽取
采用基于對抗網絡的實體和實體關系抽取,具體過程如算法2:
算法2:基于對抗網絡的實體和實體關系抽取
在算法2中,需要說明的是,眾包數據本身是已經標注的數據,但含有大量的噪聲,在數據嵌入層階段,處理的方式仍然是連接了詞特征、實體位置特征以及實體關系特征,是為了保證數據的輸入和兩類數據對抗模仿一致性學習策略中產生的生成器G和分類器C參數的一致性,但標注的本身信息對分類器C并不會產生影響;另外,在步驟5中,標注的實體關系對步驟2中標注的實體進行修正,主要是為了進一步提高實體識別的準確性,這也是此方法優于大多數實體及關系識別方法的關鍵所在。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連理工大學,未經大連理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011226864.7/1.html,轉載請聲明來源鉆瓜專利網。





