[發(fā)明專利]一種基于多任務學習的腸癌診斷電子病歷屬性值抽取方法有效
| 申請?zhí)枺?/td> | 202010429765.2 | 申請日: | 2020-05-20 |
| 公開(公告)號: | CN111666762B | 公開(公告)日: | 2023-06-20 |
| 發(fā)明(設計)人: | 杜明;周軍鋒;徐波;劉國華;左彥飛;龐敏敏;張弘;王文坤;王璿 | 申請(專利權)人: | 東華大學 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/211;G16H10/60;G06N20/20;G06N3/0442;G06N3/045 |
| 代理公司: | 上海申匯專利代理有限公司 31001 | 代理人: | 徐俊 |
| 地址: | 201600 上*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 任務 學習 腸癌 診斷 電子 病歷 屬性 抽取 方法 | ||
1.一種基于多任務學習的腸癌診斷電子病歷屬性值抽取方法,其特征在于,包括以下步驟:
步驟一、對于每個實例使用預訓練的詞嵌入來初始化神經網絡模型中的參數:對于每個癌癥標本e∈E,E為癌癥標本數據集,首先將其文本切成句子或段se,然后將其作為癌癥樣本的一個實例;
步驟二、使用訓練數據對步驟一中所述實例進行微調來捕獲特定領域的語義或知識;
步驟三、使用BiLSTM層來考慮多條句子上下文信息,以獲得更好的句子表示:上下文信息分別傳送到BiLSTM的前向序列和后向序列中,對于每個句子sei,使用隱藏的向量hi表示它:
hi=[hi,1,hi,2,…,hi,j,…,hi,w]???????????????????????(1)
其中hi,j是句子sei的第j個單詞的隱藏向量表示,將前向LSTM表示和后向LSTM表示通過非線性變換連接起來;前向LSTM表示帶有文本的標準序列,后向LSTM表示帶有相反的序列:
其中,為前向LSTM表示,為后向LSTM表示,σ()表示非線性變換;
步驟四、使用注意力機制為不同的屬性提取器選擇最重要的實例,并相應地減少其它實例所帶來的噪聲:使用HAN模型提出的注意力機制來表示所有實例h,其定義如下:
h=∑iαihi????????????????????????????????(3)
其中hi是第i個實例,而αi是hi實例的權重,定義如下:
mi=tanh(wshi+bs)???????????????????????????(5)其中,ms和mi是實例或句子級別的上下文向量,ws和bs是一個單層的感知機參數用于得到mi的隱含表示,這些參數均于訓練過程中隨機初始化和聯合學習;miT表示mi的轉置;
步驟五、在輸出層使用多任務學習機制,共同學習相關任務以同時解決多個多類問題任務,從而獲得更好的結果并減少過擬合的風險:所有實例h被輸送到不同的輸出層;同時,使用softmax函數獲得多個分類結果,
Pc=softmax(wch+bc)?????????????????????????(6)
其中Pc是任務c的預測概率,wc是權重參數,bc是偏差矢量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東華大學,未經東華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010429765.2/1.html,轉載請聲明來源鉆瓜專利網。





