[發明專利]一種基于神經主題模型的疾病檢測與知識發現裝置有效
| 申請號: | 202310501896.0 | 申請日: | 2023-05-06 |
| 公開(公告)號: | CN116206755B | 公開(公告)日: | 2023-08-22 |
| 發明(設計)人: | 孫周健;羅城;丁鼐 | 申請(專利權)人: | 之江實驗室 |
| 主分類號: | G16H50/20 | 分類號: | G16H50/20;G06F18/241;G06F18/214;G06N3/084;G16H10/60;G06N5/02 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 邱啟旺 |
| 地址: | 311121 浙江省杭*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 神經 主題 模型 疾病 檢測 知識 發現 裝置 | ||
1.一種基于神經主題模型的疾病檢測與知識發現裝置,其特征在于,包括:
數據預處理模塊:用于采集患者的電子病歷數據,并提取電子病歷中入院記錄的文本數據,對文本數據進行預處理,基于出院診斷對患者所患疾病進行標注,得到訓練樣本;
患者畫像分析模塊:用于構建基于神經主題模型的疾病文本分析模型,以數據預處理模塊得到的訓練樣本作為輸入,以所述訓練樣本的文本內容所對應的疾病作為輸出,在神經主題模型中引入輔助損失集,基于反向傳播算法對神經主題模型進行訓練,對神經主題模型的參數進行調節,直到收斂,得到訓練完成后的疾病文本分析模型;所述疾病文本分析模型用于提取可解釋的患者文本表征;
分類模塊:用于實現線性分類器,以患者畫像分析模塊得到的患者文本表征作為輸入,以所述患者文本表征對應的疾病作為輸出,使用反向傳播算法對線性分類器進行訓練,對神經主題模型的參數進行調節,直到收斂;得到訓練完成的線性分類器,實現基于患者文本表征的疾病檢測;
所述數據預處理模塊中,對文本數據進行預處理具體為:提取電子病歷中的所需信息,將每個患者的電子病歷數據中提取的信息整合為一個文本數據,并將每名患者的文本數據轉換為詞袋表達,隨后基于TF-IDF算法,從患者詞袋表達數據中提取出最重要的詞匯集合,并丟棄剩余詞匯,從而將患者的每份文本數據整理為一個向量;所述患者畫像分析模塊中,所述的神經主題模型是經過改進的主題模型,優化神經主題模型的目標函數如下表達式:其中,表示訓練過程的一個批次,表示一個文檔中的詞的編號,表示文檔中的詞的數量,為文檔中編號為的詞在詞袋表達中所對應的編號,為神經主題模型的主題-詞匯分布,為變分分布所刻畫的正態分布的均值與協方差矩陣參數,表示協方差矩陣的跡,表示神經主題模型預設的主題數量;
所述輔助損失集包含對比損失、知識蒸餾損失和主題多樣性損失,這三種損失函數計算如下表達式:其中,分別指代對比損失、知識蒸餾損失和主題多樣性損失,表示文本編號,表示文本對應的疾病標簽,表示指示函數,表示神經主題模型生成的文本的表征,表示大規模預訓練神經語言模型生成的文本的深度表征,表示主題編號,表示主題對應的主題-詞頻分布。
2.如權利要求1所述的基于神經主題模型的疾病檢測與知識發現裝置,其特征在于,所述數據預處理模塊中,所述電子病歷數據的入院記錄包括以文本形式記錄的“患者人口學信息”、“現病史”、“既往史”、“主訴”和“個人史”。
3.如權利要求1所述的基于神經主題模型的疾病檢測與知識發現裝置,其特征在于,所述對比損失函數、知識蒸餾損失函數和主題多樣性損失函數加入神經主題模型的損失函數中共同訓練。
4.如權利要求3所述的基于神經主題模型的疾病檢測與知識發現裝置,其特征在于,所述神經主題模型中的參數通過對比損失函數、知識蒸餾損失函數、主題多樣性損失函數和神經主題模型損失函數的線性組合,基于反向傳播算法進行聯合優化。
5.如權利要求1所述的基于神經主題模型的疾病檢測與知識發現裝置,其特征在于,所述神經主題模型通過將文本的詞袋表達轉化為一個實數文本向量,完成文本中蘊含信息的抽取。
6.如權利要求1所述的基于神經主題模型的疾病檢測與知識發現裝置,其特征在于,所述分類模塊中,所述線性分類器基于患者畫像分析模塊生成的患者文本表征使用softmax回歸進行分類。
7.一種電子設備,包括存儲器和處理器,其特征在于,所述存儲器與所述處理器耦接;其中,所述存儲器用于存儲程序數據,所述處理器用于執行所述程序數據以實現上述權利要求1-6任一項所述的基于神經主題模型的疾病檢測與知識發現裝置中各模塊的功能。
8.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述程序被處理器執行時實現如權利要求1-6中任一項所述的基于神經主題模型的疾病檢測與知識發現裝置中各模塊的功能。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于之江實驗室,未經之江實驗室許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310501896.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于實體命名識別的數據快速脫敏系統及方法
- 下一篇:一種數字信號處理結構





