[發明專利]一種基于神經主題模型的疾病檢測與知識發現裝置有效
| 申請號: | 202310501896.0 | 申請日: | 2023-05-06 |
| 公開(公告)號: | CN116206755B | 公開(公告)日: | 2023-08-22 |
| 發明(設計)人: | 孫周健;羅城;丁鼐 | 申請(專利權)人: | 之江實驗室 |
| 主分類號: | G16H50/20 | 分類號: | G16H50/20;G06F18/241;G06F18/214;G06N3/084;G16H10/60;G06N5/02 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 邱啟旺 |
| 地址: | 311121 浙江省杭*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 神經 主題 模型 疾病 檢測 知識 發現 裝置 | ||
本發明公開了一種基于神經主題模型的疾病檢測與知識發現裝置,由預處理模塊對數據進行預處理,將每個入院記錄重建為半結構化文本數據集,并作為訓練數據;然后將訓練數據輸入患者畫像分析模塊,優化參數,得到患者典型畫像信息及可以提取患者畫像分布表征的模型;再將患者畫像分布表征作為訓練數據訓練分類模塊,得到輔助診斷模型。本發明可基于患者入院記錄文本提取可解釋文本表征并完成高性能分類,同時完成輔助診斷任務與輔助知識發現任務,利用目前難以被充分使用的醫療文本信息輔助完成臨床決策支持任務。
技術領域
本發明屬于數據處理領域,具體涉及一種基于神經主題模型的疾病檢測與知識發現裝置。
背景技術
患者入院時的信息,例如主訴、現病史、既往史,通常以文本形式被記錄在病程錄內,并存儲在醫院的電子病歷系統中。這些信息是醫務人員進行診斷與了解疾病特征的主要證據。因此,醫療數據挖掘與人工智能研究十分關注這些信息,用計算機模擬人類,基于患者病程錄進行輔助診斷和知識發現的研究在國內外均有開展。
輔助診斷與知識發現并非兩個獨立的任務,而是同一個任務的兩個側面,需要被同時解決。如果一個模型可以達到較高的輔助診斷精度,但是不可解釋,無法基于模型抽取出任何人類可以理解的知識,我們會擔憂模型是否真的通過可靠的證據完成診斷;另一方面,如果一個模型可以從數據中發現知識(如識別出疾病風險因子),但是疾病預測精度較低,我們則可能質疑模型發現的知識是否足夠可靠。通常,模型僅在可以達到較高預測精度,并能夠被證明是基于可靠的知識開展決策的情況下,才可能獲得人們的信任。
目前,主題模型和深度學習模型是常見的兩種基于文本完成輔助診斷的方法。其中具備代表性的工作包括,Kim等人使用主題模型,結合結構化數據,分析醫療文本數據預測敗血癥(Nat.?Comm.,2021.?12:711);Yao等人使用BERT這一深度學習模型,對中醫文本進行診斷(J.?Am.?Med.?Inform.?Assoc.,?2019.26(12):1632-6);Geraci等人使用深度神經網絡,基于醫療文本數據進行抑郁障礙分型(Evid.?based?Ment.?Health,?2017.20:83-7)。但均無法達成高效、可解釋的輔助診斷。深度學習模型通常能夠達到較高的性能,但是不具備可解釋性,無法為醫務人員提供任何知識。基于主題模型的方法則因為技術路線本身的特點,難以達到較高的預測性能。
發明內容
本發明的目的在于針對現有技術中的不足,提供了一種基于神經主題模型的疾病檢測與知識發現裝置;克服現有醫療文本分析方法性能與可解釋性不能兼顧的缺陷,以醫務人員可以理解的方式挖掘醫療文本信息并完成疾病檢測,實現基于文本的輔助診斷和知識挖掘,從而利用目前難以被充分利用的醫療文本信息輔助完成臨床決策支持任務。
為實現上述目,本發明提供了一種基于神經主題模型的疾病檢測與知識發現裝置,包括:
數據預處理模塊:用于采集患者的電子病歷數據,并提取電子病歷中入院記錄的文本數據,對文本數據進行預處理,基于出院診斷對患者所患疾病進行標注,得到訓練樣本;
患者畫像分析模塊:用于構建基于神經主題模型的疾病文本分析模型,以數據預處理模塊得到的訓練樣本作為輸入,以所述訓練樣本的文本內容所對應的疾病作為輸出,在神經主題模型中引入輔助損失集,基于反向傳播算法對神經主題模型進行訓練,對神經主題模型的參數進行調節,直到收斂,得到訓練完成后的疾病文本分析模型;所述疾病文本分析模型用于提取可解釋的患者文本表征;
分類模塊:用于實現線性分類器,以患者畫像分析模塊得到的患者文本表征作為輸入,以所述患者文本表征對應的疾病作為輸出,使用反向傳播算法對線性分類器進行訓練,對相關參數進行調節,直到收斂;得到訓練完成的線性分類器,實現基于患者文本表征的疾病檢測。
進一步地,所述數據預處理模塊中,所述電子病歷數據的入院記錄包括以文本形式記錄的“患者人口學信息”、“現病史”、“既往史”、“主訴”、“個人史”。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于之江實驗室,未經之江實驗室許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310501896.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于實體命名識別的數據快速脫敏系統及方法
- 下一篇:一種數字信號處理結構





