[發明專利]一種基于多模態融合的疾病風險預測方法和系統有效
| 申請號: | 202110486200.2 | 申請日: | 2021-04-30 |
| 公開(公告)號: | CN113241135B | 公開(公告)日: | 2023-05-05 |
| 發明(設計)人: | 李玉軍;胡喜風;劉治;胡偉鳳 | 申請(專利權)人: | 山東大學 |
| 主分類號: | G16H10/60 | 分類號: | G16H10/60;G16H50/20;G16H50/70;G06F16/35 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 孫維傲 |
| 地址: | 266237 *** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 多模態 融合 疾病 風險 預測 方法 系統 | ||
本申請提供一種基于多模態融合的疾病風險預測方法及系統,所述預測方法包括:獲取待預測患者的EHR數據,所述數據包括結構化數據和非結構化數據;將EHR數據輸入疾病風險預測模型,得到疾病風險預測結果;輸出疾病風險預測結果;其中,疾病風險預測模型執行步驟:識別EHR數據為結構化數據和非結構化數據;對結構化數據和非結構化數據進行數據清洗;提取結構化數據特征和非結構化數據特征;提取融合特征,述融合特征為非結構化數據特征和結構化數據特征的融合特征;對融合特征進行疾病風險預測。本發明能夠有效的幫助醫生提供有效的參考信息,預判患者病情的發展情況,及時幫助救治,同時增加患者配合治療的積極性。
技術領域
本申請涉及醫學大數據信息處理領域,尤其涉及一種基于多模態融合的疾病風險預測方法和系統。
背景技術
公開該背景技術部分的信息僅僅旨在增加對本申請的總體背景的理解,而不必然被視為承認或以任何形式暗示該信息構成已經成為本領域一般技術人員所公知的現有技術。
電子健康記錄(EHR)為健康研究創建了大量廉價的數據,其涵蓋電子病歷、既往病史信息、患者病歷的文本記錄等數據。數字化和對病歷的后續分析構成了一種數字化轉換領域,旨在以EHR的形式收集有關患者的多種醫學信息,包括數字化測量(實驗室結果)、口頭描述(癥狀和便箋、生命體征等)、圖像(X射線、CT和MR掃描等)并記錄患者的治療過程。這種數字化為挖掘健康記錄創造了機會,以提高護理質量和臨床結果。
然而臨床醫生只有有限的時間來處理所有可用數據并檢測類似病歷中的模式。電子健康記錄包含具有重要研究和臨床價值的結構化和非結構化數據,隨著大量EHR數據的標準化和數字化,通過對大量多源異構數據進行挖掘進而建立風險預測模型來實現個性化醫療是亟需的。以往的大多數嘗試都是建立在結構化的EHR字段上,非結構化文本數據中的大量信息被丟失。
發明內容
本發明發明人在了解現有技術存在的缺陷的基礎上,發現通過對醫學文本進行有效挖掘,并通過有效的數據融合手段將多源異構數據進行深層次的融合研究,能夠避免單一數據所導致的局限性和片面性。因此,發明人在進一步地將深度學習與疾病預測相結合進行研究。然而,兩者的結合伴隨著以下問題,包括:
數據集數量和分布不均衡的問題:不帶目的的數據收集往往會造成記錄數據的完整度、準確度和顆粒度無法形成系統的體系,造成數據的缺失和不規范。因此,需要耗費一定的人力和物力進行數據采集。限于時間和財力,能夠得到的良好的樣本數量有限,比如,在本發明的一些實施方式中,得到良好的樣本數量僅有1300例,且正負樣本分布不均衡,這會極大地影響深度神經網絡的學習和訓練。
醫學文本數據不能直接用于計算的問題:在現有的處理方式中,醫學文本往往首先需要進行數字化表示。但是,這些文本數據通常是長文本且帶有醫學實體,采用CNN(Convolutional?Neural?Network,卷積神經網絡)、word2vec(詞向量產生模型)、LSTM(Long-Short?Term?Memory,長短期記憶網絡)、Bi-LSTM(Bi-directional?Long-ShortTerm?Memory)等進行醫學文本數據的向量表示時不盡人意。
以及,目前臨床的真實數據大多是以多模態的形式存在,然而現在對于多模態方面的研究較少,單點突破已經做了很多事情,只考慮單模態因素不能對潛在風險進行綜合評估,臨床數據也未被充分挖掘利用。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東大學,未經山東大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110486200.2/2.html,轉載請聲明來源鉆瓜專利網。





