[發明專利]一種基于遷移學習的疾病領域間病人相似性度量遷移系統有效
| 申請號: | 201710136858.4 | 申請日: | 2017-03-09 |
| 公開(公告)號: | CN106934235B | 公開(公告)日: | 2019-06-11 |
| 發明(設計)人: | 劉杰;倪嘉志;馬志柔;吳懷林;葉丹 | 申請(專利權)人: | 中國科學院軟件研究所 |
| 主分類號: | G16H50/70 | 分類號: | G16H50/70;G16H50/20 |
| 代理公司: | 北京科迪生專利代理有限責任公司 11251 | 代理人: | 楊學明;顧煒 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 遷移 學習 疾病 領域 病人 相似性 度量 系統 | ||
1.一種基于遷移學習的疾病領域間病人相似性度量遷移系統,其特征在于:包括數據預處理子模塊、相似性度量評價子模塊、相似性度量學習子模塊和相似性遷移學習子模塊;
數據預處理子模塊,完成病人健康數據預處理任務;從醫院數據庫得到病人的四類信息數據,所述四類信息數據為病人基本信息、用藥信息、化驗信息和診斷信息數據,將上述四類信息數據分別進行數據清洗、醫療規則檢驗、標準化、向量化處理,得到病人特征向量矩陣,為相似性度量評價子模塊、相似性度量學習子模塊和相似性遷移學習子模塊提供支持;
相似性度量評價子模塊,完成病人間相似性的評價任務;根據數據預處理子模塊得到的病人特征向量矩陣,抽取所述矩陣中關于診斷信息的ICD10疾病編碼,利用Jaccard系數來評價病人間的相似性,得到病人間相似性的評價結果,作為監督信息為相似性度量學習子模塊和相似性遷移學習子模塊提供支持;
相似性度量學習子模塊,完成疾病領域內病人相似性的度量工作;將從數據預處理子模塊和相似性度量評價子模塊分別得到的病人特征向量矩陣和病人間相似性的評價結果,利用度量學習模型處理,得到疾病領域內的度量矩陣,為相似性遷移學習子模塊提供支持;
相似性遷移學習子模塊,完成疾病領域間病人相似性的遷移工作;根據預處理子模塊得到的病人特征向量矩陣、相似性度量評價子模塊得到的病人間相似性的評價結果和度量學習子模塊得到的疾病領域內的度量矩陣,經過遷移學習模型處理,得到病人計算相似度適用的度量矩陣,完成在疾病領域間的病人相似性遷移工作。
2.根據權利要求1所述的基于遷移學習的疾病領域間病人相似性度量遷移系統,其特征在于:所述數據預處理子模塊具體實現過程如下:
(1)病人健康數據的數據清洗過程,是將數據中的缺失值、異常值、不一致值數據找到并進行相應的處理,丟棄缺失值、異常值、不一致值數據;
(2)在清洗后的數據上進行醫療規則檢驗,即查看數據是否滿足規定的醫療數據結構標準,若不滿足需要增補相應字段,轉至步驟(1);否則轉至步驟(3);
(3)經步驟(1)、(2)處理后的數據進行數據標準化操作,即對病人基本信息、用藥信息、化驗信息和診斷信息數據中的字段進行特征組合、離散化、歸一化處理,轉至步驟(4);所述病人基本信息包含性別、年齡、民族、血型四類特征;病人用藥信息包含用藥種類、用藥時間、用藥劑量三類特征的組合;病人化驗信息包含化驗類別、化驗部位、化驗結果三類特征的組合;病人診斷信息包含ICD10疾病編碼,并將該編碼作為兩個學習子模塊的監督信息;
(4)將標準化后的病人健康數據根據病人唯一身份證號ID進行合并,整理得到病人特征向量矩陣。
3.根據權利要求1所述的基于遷移學習的疾病領域間病人相似性度量遷移系統,其特征在于:所述相似性度量評價子模塊具體實現過程如下:
(1)將數據預處理子模塊輸出的病人特征向量矩陣中與診斷信息相關的病人ICD10疾病編碼提取出來,構成病人唯一身份證號ID與其ICD10疾病編碼序列的對應數組;
(2)處理每位病人的ICD10疾病編碼序列,截取編碼前n位作為病人診斷標簽,對該病人的標簽進行去重操作;
(3)在步驟(2)輸出的病人標簽基礎上,利用公式(1)計算兩兩病人間相似度,得到病人相似度監督信息;
其中,ya和yb分別表示病人a和b的標簽。
4.根據權利要求1所述的基于遷移學習的疾病領域間病人相似性度量遷移系統,其特征在于:所述相似性度量學習子模塊具體實現過程如下:
(1)將數據預處理子模塊輸出的病人特征向量矩陣中與診斷信息無關的部分提取出來,構成新的病人特征向量矩陣,轉至步驟(2);
(2)計算新的病人特征向量矩陣協方差矩陣作為病人度量矩陣的初始化值;
(3)通過病人度量矩陣計算每個病人的n個同構和異構鄰居,通過監督信息計算所有病人同構鄰居和異構鄰居的距離誤差值,進而得到平均距離誤差;
(4)若平均距離誤差值低于給定閾值,則說明滿足了最大化間隔要求,轉至步驟(6);否則,轉至步驟(5);
(5)找到不滿足條件的同構或異構鄰居,使用梯度下降的方法更新度量矩陣中對應的參數值,轉至步驟(3);
(6)輸出該疾病領域內病人度量矩陣∑。
5.根據權利要求1所述的基于遷移學習的疾病領域間病人相似性度量遷移系統,其特征在于:所述相似性遷移學習子模塊具體實現過程如下:
(1)根據相似性度量學習子模塊獲取各個源疾病領域的度量矩陣∑i,并將這些度量矩陣進行向量化表示,向量化結果為
(2)根據疾病領域數量構造領域間關系矩陣Ω,并滿足約束tr(Ω)=1;使用目標疾病領域病人特征向量矩陣的協方差矩陣初始化目標疾病領域病人度量矩陣∑m;
(3)判斷專家是否給出目標疾病領域病人相似性監督信息,若給出則使用PSM矩陣計算監督信息;否則使用病人診斷標簽計算監督信息;
(4)根據Ω、∑m參數利用公式2計算目標函數值,若目標函數誤差高于給定閾值則轉至步驟(5);否則轉至步驟(6);
(5)通過坐標下降交替優化的方式更新Ω、∑m參數值,轉至步驟(4);
(6)輸出目標疾病領域內病人度量矩陣∑m;
Ω≥0
tr(Ω)=1
其中,度量矩陣∑不需要滿足半正定約束;代表判斷目標領域中j和k兩個病人的相似性;PSM代表專家評估矩陣,若病人pj,pk是專家進行評估的,則使用e()函數根據閾值判斷兩個病人相似與否,否則使用o()函數根據兩病人的診斷信息來判斷兩個病人相似與否;是將所有領域的度量矩陣向量化表示;約束tr(Ω)≥1是為了保證疾病領域間關系矩陣的規模,以防止遷移學習算法得到退化解。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院軟件研究所,未經中國科學院軟件研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710136858.4/1.html,轉載請聲明來源鉆瓜專利網。





