[發明專利]基于醫學知識注入提示的少樣本ICD編碼方法和系統有效
| 申請號: | 202310517095.3 | 申請日: | 2023-05-09 |
| 公開(公告)號: | CN116227433B | 公開(公告)日: | 2023-07-04 |
| 發明(設計)人: | 劉軍平;楊士臣;朱強;彭濤;胡新榮 | 申請(專利權)人: | 武漢紡織大學 |
| 主分類號: | G06F40/12 | 分類號: | G06F40/12;G06F40/186;G16H15/00 |
| 代理公司: | 武漢世躍專利代理事務所(普通合伙) 42273 | 代理人: | 萬仲達 |
| 地址: | 430073 *** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 醫學知識 注入 提示 樣本 icd 編碼 方法 系統 | ||
本發明涉及一種基于醫學知識注入提示的少樣本ICD編碼方法和系統,該方法能夠根據輸入的醫學文本生成最佳的ICD編碼,提高了醫學文本和ICD編碼之間的匹配準確性。該方法包括以下步驟:S1:對輸入的醫學文本進行預處理;S2:通過UMLS和ICD本體的醫學知識圖中的同義詞、縮寫、層次結構構建數據集,并且使用分層三重態損失對longformer模型進行預訓練,將結構化的醫學領域知識注入到longformer模型中;S3:利用UMLS為每個ICD編碼c生成一個對應的編碼描述,并將預處理后的醫學文本t、編碼描述和固定的文本模板拼接在一起,形成一個新的輸入序列,并利用訓練好的longformer模型對輸入序列進行分類,得出ICD編碼的分類結果。
技術領域
本發明屬于醫療數據處理技術領域,特別是涉及基于醫學知識注入提示的少樣本ICD編碼方法和系統。
背景技術
多標簽文本分類是一種自然語言處理(NLP)中常見的任務,它涉及到為一個實例分配多個類別標簽。例如,在學術論文標簽、新聞分類、亞馬遜產品標簽和醫療編碼等應用中,都需要對一個實例進行多標簽分類。而多標簽分類任務比單標簽分類任務更難,因為要考慮類別之間的組合和關系。
在實際應用中,許多類別標簽出現頻率較低,導致訓練數據不足。例如,在國際疾病自動分類(ICD)編碼任務中,給定一份出院病歷作為輸入,需要分配多個與該病歷相關聯的ICD疾病編碼和手術編碼作為輸出。這些編碼對于后續醫療計費非常重要。然而,在MIMIC-III數據集中,共有8692個ICD-9編碼,其中4115個(47.3%)代碼出現次數少于6次,203個(2.3%)編碼從未出現過。由于臨床醫學對準確性要求很高,醫學研究者希望模型能夠對低頻編碼也能做出高精度的預測。然而,由于訓練模型的樣本數量有限,這就面臨了數據稀疏性問題。
發明內容
為了解決現有技術中存在的問題,本發明提供了一種基于醫學知識注入提示的少樣本ICD編碼方法,旨在解決低頻編碼出現率低和數據稀疏性兩個問題。
本發明采用以下步驟:
步驟S1,對輸入的醫學文本t進行預處理;
步驟S2,通過統一醫學語言系統UMLS和國際疾病分類ICD本體的醫學知識圖中的同義詞、縮寫、層次結構構建數據集,并且使用分層三重態損失對longformer模型進行預訓練,將結構化的醫學領域知識注入到longformer模型中;
步驟S3,利用UMLS為每個ICD編碼c生成一個對應的編碼描述,并將預處理后的醫學文本t、編碼描述和固定的文本模板拼接在一起,形成一個新的輸入序列,并利用訓練好的longformer模型對輸入序列進行分類,得出ICD編碼的分類結果。
進一步的,步驟S1中的預處理包括:刪除所有標識標記,將標點符號和非字母數字字符替換為空白,去除多余的空白。
進一步的,步驟S2的具體實現方式如下;
S21,首先通過UMLS和ICD本體的醫學知識圖中的同義詞、縮寫、層次結構構建數據集;具體地說,對于每個ICD編碼c,從醫學知識圖中獲取與之相關聯的同義詞、縮寫、上位概念或下位概念,并根據關聯關系劃分正負樣本,正樣本為編碼c的縮寫或同義詞,負樣本為編碼c的上下級編碼、同級編碼;
S22,構建動態閾值控制的分層三重態損失Triplet?Loss損失函數,小批次B的分層三重態損失可表示為:
其中是小批次B中的所有三聯體,B中三聯體的數量,每個三聯體包括一個錨點,正樣本,負樣本,正樣本為錨點的縮寫或同義詞,負樣本為錨點的上位概念或下位概念;
是一個動態參數,它是根據錨點和負樣本之間的文本相似度來計算的;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢紡織大學,未經武漢紡織大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310517095.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種模具檢測裝置
- 下一篇:一種輸入中包含錯誤信息場景下的文檔檢索方法





