[發明專利]一種提取疾病預后協變量的結構化數據的方法及系統有效
| 申請號: | 202110941747.7 | 申請日: | 2021-08-17 |
| 公開(公告)號: | CN113688632B | 公開(公告)日: | 2022-10-04 |
| 發明(設計)人: | 賀佳;吳騁;林振;秦宇辰;秦嬰逸;李冬冬;王志勇;何倩;陳琪;郭威;郭軼斌 | 申請(專利權)人: | 中國人民解放軍海軍軍醫大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F16/22;G06F16/21;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 上海申浩律師事務所 31280 | 代理人: | 趙青 |
| 地址: | 200433 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 提取 疾病 預后 變量 結構 數據 方法 系統 | ||
1.一種基于非結構化醫療文本提取疾病預后協變量的結構化數據的方法,其特征在于,包括以下步驟:
步驟S1:預處理非結構化醫療文本:獲取非結構化醫療文本,并通過正則表達式去除非結構化醫療文本中的包含否定詞和/或陰性詞的文本,然后采用BIO標注體系對非結構化醫療文本進行標注;
步驟S2:通過NER模型識別醫療實體:所述NER模型為基于ERNIE預訓練模型、膨脹卷積神經網絡和條件隨機場的醫療實體識別模型,首先將標注后的醫療文本通過ERNIE預訓練模型轉換為字向量,然后將字向量輸入到膨脹卷積神經網絡中以得到每個字的標簽得分,最后將每個字的標簽得分輸入到條件隨機場中以得到文本中包含的所有的實體名稱和每個字的醫療實體類別;
步驟S3:構建半結構化數據庫:根據識別出的醫療實體類別和實體名稱,構建半結構化數據庫,所述半結構化數據庫包括患者編號、醫療實體類別和實體名稱;
步驟S4:目標醫療實體是否存在的判斷:利用半結構化數據庫,訓練ERNIE深度學習模型以構建協變量提取器,向協變量提取器中輸入目標醫療實體的標準名稱,通過ERNIE深度學習模型將目標醫療實體的標準名稱與半結構化數據庫中的實體名稱進行相似度比對,并通過邏輯回歸函數判斷目標醫療實體的標準名稱與實體名稱是否相似,如果相似,則表示匹配,代表該目標協變量存在于非結構化醫療文本中,則輸出結果為“1”,以疾病實體為例,則“1”表示患者患有該醫療實體名稱對應的疾病;如果不相似,則表示不匹配,代表該目標協變量不存在于非結構化醫療文本中,則輸出結果為“0”,以疾病實體為例,則“0”表示該患者未患有該醫療實體名稱對應的疾病;
步驟S5:構建結構化數據庫:在所述協變量提取器中依次輸入目標醫療實體的名稱之后,所述協變量提取器就會構建一個結構化數據庫,所述結構化數據庫包括患者編號、目標醫療實體的標準名稱及其對應的輸出結果。
2.如權利要求1所述的基于非結構化醫療文本提取疾病預后協變量的結構化數據的方法,其特征在于,在步驟S4中,所述ERNIE深度學習模型采用12層Transformer,隱藏層大小為768,多頭注意力機制為12頭,優化器為Adam,設置學習率為2e-05,一次訓練所選取的樣本數為32,訓練迭代10次。
3.如權利要求1所述的基于非結構化醫療文本提取疾病預后協變量的結構化數據的方法,其特征在于,在步驟S4中,所述相似度比對的方法包括下述步驟:利用孿生網絡結構,首先將目標醫療實體的標準名稱與實體名稱這兩個實體分別送入ERNIE,ERNIE的參數對這兩個實體共享,得到兩個實體的句向量,隨后送入匯聚層,采用平均匯聚方式對句向量進行特征提取和壓縮,得到u和v,最后將u、v、|u-v|拼接后送入全連接層,將這兩個實體進行相似度比對,通過邏輯回歸函數判斷兩個實體是否相似,如果相似,則表示匹配,代表該目標協變量存在于非結構化的原始醫療文本中;如果不相似,則表示不匹配,代表該目標協變量不存在于非結構化的原始醫療文本中。
4.如權利要求1所述的基于非結構化醫療文本提取疾病預后協變量的結構化數據的方法,其特征在于,所述醫療實體類別包括疾病實體、藥物實體、手術實體、影像學檢查實體和癥狀實體。
5.如權利要求1-4任一項所述的基于非結構化醫療文本提取疾病預后協變量的結構化數據的方法,其特征在于,所述非結構化醫療文本為出院小結。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍海軍軍醫大學,未經中國人民解放軍海軍軍醫大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110941747.7/1.html,轉載請聲明來源鉆瓜專利網。





