[發明專利]基于深度學習的乳腺電子病歷聯合關系抽取與結構化系統在審
| 申請號: | 201810699364.1 | 申請日: | 2018-06-29 |
| 公開(公告)號: | CN109243616A | 公開(公告)日: | 2019-01-18 |
| 發明(設計)人: | 潘喬;陳德華;朱立峰;左銘;趙艷;王梅;俞春濡 | 申請(專利權)人: | 東華大學;上海交通大學醫學院附屬瑞金醫院 |
| 主分類號: | G16H50/70 | 分類號: | G16H50/70;G16H10/60;G06F16/25;G06F16/35;G06N3/08 |
| 代理公司: | 上海泰能知識產權代理事務所 31233 | 代理人: | 宋纓;錢文斌 |
| 地址: | 201620 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 電子病歷 乳腺 關系抽取 結構化 結構化系統 學習 結構化模型 結構化數據 非結構化 評估結果 評估算法 文本數據 可識別 智能化 自動化 聯合 轉化 | ||
1.一種基于深度學習的乳腺電子病歷聯合關系抽取與結構化系統,其特征在于,包括乳腺電子病歷數據的結構化模塊和乳腺電子病歷數據的關系抽取模塊,所述乳腺電子病歷數據的結構化模塊基于深度學習將大量非結構化的文本數據轉化為評估算法可識別的結構化數據;所述乳腺電子病歷數據的關系抽取模塊基于深度學習建立電子病歷結構化模型,得到評估結果。
2.根據權利要求1所述的基于深度學習的乳腺電子病歷聯合關系抽取與結構化系統,其特征在于,所述乳腺電子病歷數據的結構化模塊首先選取較完整的乳腺電子病歷文本數據進行數據清洗、分詞和標注,形成初步的數據訓練集文件;其次讀取已標注的訓練數據,依據文本的字符特征構建字向量,以字向量構建文本特征向量作為整個模型的輸入;最后經過文本的預處理操作后,得到由字向量構建的文本特征向量,再利用神經網絡模型進行進一步的特征抽取以及分類操作,獲得非結構化文本中的實體。
3.根據權利要求2所述的基于深度學習的乳腺電子病歷聯合關系抽取與結構化系統,其特征在于,所述乳腺電子病歷數據的結構化模塊根據醫療領域的分詞算法得到更加準確的分詞結果,再對詞語或字進行相關標注以及詞向量或字向量訓練;其中,模型訓練提供用于訓練預測模型的算法支持,通過預配置的CNN和LSTM算法調用,同時實現一個自定義的模型類以及內部相應的接口函數用于網絡模型訓練;最后,通過模型訓練生成能夠進行結構化的模型,從而能夠提取非結構化的乳腺電子病歷中的疾病、癥狀、檢查和治療的實體。
4.根據權利要求3所述的基于深度學習的乳腺電子病歷聯合關系抽取與結構化系統,其特征在于,在字向量訓練時,模型中網絡的輸入是由每個乳腺電子病歷的句子向量矩陣構成,而單個的句子向量矩陣由預先訓練好的字向量構成;其中,字向量的構建利用Skip-gram模型作為基礎,通過給定的中心字來預測上下文周圍的字,通過大量的醫療評價語料集進行字向量訓練。
5.根據權利要求1所述的基于深度學習的乳腺電子病歷聯合關系抽取與結構化系統,其特征在于,所述乳腺電子病歷數據的關系抽取模塊首先把結構化之后的結果中的兩組實體以及實體間的句子作為輸入;其次利用所輸入的訓練集建立關系抽取模型,利用測試集檢測模型性能;最后給定一份原始的乳腺電子病歷報告文本,實驗乳腺電子病歷結構化以及關系抽取模型的可用性,得到結構化后的結果。
6.根據權利要求5所述的基于深度學習的乳腺電子病歷聯合關系抽取與結構化系統,其特征在于,所述乳腺電子病歷數據的關系抽取模塊所要預測的實體間關系包括:因癥狀而采取檢查、檢查而發現某種癥狀、治療施加于某種疾病、治療惡化某種疾病和治療改善了某種疾病;通過結構化獲得的兩個實體對應的編碼向量,以及實體間的句子作為關系抽取CNN模型的輸入;通過預先整理的實體間關系與預測的結果進行誤差比較,從而生成有效的關系抽取網絡,建立關系抽取預測模型,并利用測試集檢測模型的性能。
7.根據權利要求5所述的基于深度學習的乳腺電子病歷聯合關系抽取與結構化系統,其特征在于,所述乳腺電子病歷數據的關系抽取模塊基于機器學習的算法將生物醫學NER視為序列標記問題,其中每個算法的目標是為給定輸入句子找到最佳標簽序列;通過把結構化也作為序列BIO標注任務,再利用編碼層對輸入的乳腺電子病歷進行特征提取;將特征表示輸入至結構化部分利用LSTM解碼,將解碼后的表示輸入至Softmax層預測序列對應的標注;最后,將乳腺電子病歷對應的表示與編碼層的特征進行連接作為聯合表示進行關系分類。
8.根據權利要求6所述的基于深度學習的乳腺電子病歷聯合關系抽取與結構化系統,其特征在于,所述特征提取是采用Bi-LSTM網絡實現的,具體為:將輸入語句轉換為字向量,將其輸入Bi-LSTM層;對于給定的輸入序列,針對每一個輸入將其向量化成d維向量;前向LSTM采用從左向右的輸入方式,針對每一字得出相應的輸出,從而得到前向句子輸出;后向LSTM采用從右向左的輸入方式,針對每一個字得出相應的輸出,得到后向句子輸出;將得到的前向句子輸出和后向句子輸出相加,即得出Bi-LSTM的輸出結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東華大學;上海交通大學醫學院附屬瑞金醫院,未經東華大學;上海交通大學醫學院附屬瑞金醫院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810699364.1/1.html,轉載請聲明來源鉆瓜專利網。





