[發明專利]一種面向動態醫療數據的因果特征提取方法在審
| 申請號: | 202111196507.5 | 申請日: | 2021-10-14 |
| 公開(公告)號: | CN113921145A | 公開(公告)日: | 2022-01-11 |
| 發明(設計)人: | 俞奎;劉超凡;李培培 | 申請(專利權)人: | 合肥工業大學 |
| 主分類號: | G16H50/70 | 分類號: | G16H50/70;G06K9/62 |
| 代理公司: | 安徽省合肥新安專利代理有限責任公司 34101 | 代理人: | 陸麗莉;何梅生 |
| 地址: | 230009 安*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 動態 醫療 數據 因果 特征 提取 方法 | ||
1.一種面向動態醫療數據的因果特征提取方法,其特征是按如下步驟進行:
步驟1、獲取第i次的醫療數據記錄,并記為其中,recordj,i表示第i次的第j條醫療數據記錄,1≤j≤Ri;Ri表示第i次的醫療數據記錄的條數,且第i次的第j條醫療數據記錄recordj,i中包含Mi種特征,記為其中,fm,j,i表示第i次的第j條醫療數據記錄recordj,i中的第m個特征;且第m個特征fm,j,i有Nm個不同取值;Mj,i表示第i次的第j條醫療數據記錄recordj,i中的特征數,令第j條記錄recordj,i的類別標簽為Lj,i;
步驟2、構建并更新全維樹的結構,并在全維樹中以統計信息的形式匯總全部數據信息:
步驟2.0、初始化i=1;k=1;
步驟2.1、新建根節點root并作為第k層統計節點,并記錄Datai的記錄條數;
步驟2.2、按Datai中從第m個特征開始,分別在第k層統計節點下,向下新建統計節點的子節點,并作為第k層特征節點;
步驟2.3、按每個特征的取值個數,分別在第k層每個特征節點下,向下新建特征節點的子節點,并作為第k+1層統計節點,所述第k+1層統計節點內記錄有數據集中與第k層特征節點取值相同的條數,并作為統計信息;
步驟2.4、將m+1賦值給m,將k+1賦值給k后,返回步驟2.2順序執行,直到全維樹構建完成,從而得到第i個全維樹,記為ADTi,用于存儲第i次的醫療數據記錄;
步驟2.5、將i+1賦值給i;
步驟2.6、在第i-1個全維樹ADTi-1上,更新根節點root中所記錄的條數為
步驟2.7、初始化k=1;
步驟2.8、更新第k層統計節點下的第k層特征節點:若Datai中出現新的特征,則在第k層統計節點下新建相對應的特征節點;
步驟2.9、統計Datai中與第k層特征節點取值相同的條數,并累加到第k層每個特征節點下的第k層每個統計節點的統計信息中,從而完成統計節點的更新,同時,若Datai中的特征出現新的取值,則第k層特征節點下新建相對應的統計節點,用于記錄Datai中與新的取值相同的條數;
步驟2.10、將k+1賦值給k后,循環進行步驟2.8順序執行,直到第i個全維樹更新完成,并存儲有前i次的醫療數據記錄;
步驟2.11、返回步驟2.5執行,直到完成所有醫療數據記錄的存儲;
步驟3、構建最優特征子集,即關鍵特征集合F′:
步驟3.1、初始化i=1;
步驟3.2、定義第i次的醫療數據記錄Datai所對應的第i次選取的關鍵特征集合為Fi′={f′1,i,f′2,i,…,f′m′,i,…,f′M′,i},其中,f′m′,i表示第i次選取的關鍵特征集合Fi′中第m′個關鍵特征,M′表示第i次選取的關鍵特征集合Fi′中的關鍵特征的個數;
步驟3.3、初始化
步驟3.4、使用因果關系推斷方法,從第i次的醫療數據記錄Datai中的Mi個特征中選擇出可能的特征作為關鍵特征添加到最優特征子集Fi′中;
步驟3.4.1、定義候選特征集合Ci={ci,k|ci,k∈Fi\Fi′,1≤k≤Mi},其中,Fi表示第i次的醫療數據記錄Datai中包含的Mi種特征的集合,且fm,i表示第i次的醫療數據記錄Datai中第m種特征,ci,k表示第i次的醫療數據記錄Datai中包含Mi種特征的集合Fi中除第i次選取的關鍵特征集合Fi′以外的第k個特征;
步驟3.4.2、將第i次的醫療數據記錄Datai的類別標簽Li={Lj,i|j=1,2,…,Ri}和候選特征集合Ci中的每個特征均作為特征節點,并從全維樹的根節點root開始,對所有特征節點及其取值進行遍歷,得到所有特征節點之間的第一列聯表,用于表征各個特征節點之間不同取值相互組合的出現次數;
步驟3.4.3、以第i次選取的關鍵特征集合Fi′為條件集,利用式(1)分別計算候選特征集合Ci中的每個特征與類別標簽Li之間的條件相關性:
式(1)中,G2表示統計值,表示在第i次的醫療數據記錄Datai中,滿足第m′個關鍵特征f′m′,i=a和標簽Lj,i=b的記錄的條數,表示在第i次的醫療數據記錄Datai中,滿足第m′個關鍵特征f′m′,i=a,標簽Lj,i=b和條件集Fi′取值為集合β的記錄的條數;表示在第i次的醫療數據記錄Datai中,滿足條件集Fi′取值為集合β的記錄的條數,表示在第i次的醫療數據記錄Datai中,滿足標簽Lj,i=b和條件集Fi′取值為集合β的記錄的條數,表示在第i次的醫療數據記錄Datai中,滿足第m′個關鍵特征f′m′,i=a和條件集Fi′取值為集合β的記錄的條數;
步驟3.4.4、利用式(2)計算第i次選取的關鍵特征集合Fi′中第m′個關鍵特征f′m′,i和類別標簽Li之間的自由度dfm′,i:
式(2)中,表示第i次的醫療數據記錄Datai中第m′個關鍵特征f′m′,i的不同取值的個數,NLi表示第i次的醫療數據記錄Datai中類別標簽的不同取值的個數;
步驟3.4.5、將第m′個關鍵特征f′m′,i和類別標簽Li之間的統計值G2在自由度dfm′,i下漸進為卡方分布,并在卡方分布上進行卡方檢驗,得到概率值Pm′,i,所述概率值Pm′,i表示在零假設為真時,錯誤拒絕零假設的概率,其中,所述零假設為第m′個關鍵特征f′m′,i和類別標簽Li之間條件獨立;
步驟3.4.6、計算M′個關鍵特征分別和類別標簽Li={Lj,i|j=1,2,…,Ri}的概率值集合P,并對概率值集合中的概率值進行降序排列;
步驟3.4.7、選擇降序排序后的第一個概率值Pmax,i所對應的關鍵特征f′max,i,如果第一個概率值Pmax,i小于顯著性水平α,則拒絕零假設,即f′max,i和標簽Li之間條件依賴,并將f′max,i添加到第i次選取的關鍵致病因素集合Fi′中;
步驟3.5、使用因果發現理論,移除第i次選取的關鍵致病因素集合Fi′中錯誤的關鍵特征;
步驟3.5.1、對類別標簽Li={Lj,i|j=1,2,…,Ri}和關鍵致病因素集合Fi′中的每個特征作為特征節點,并從全維樹的根節點root開始,對所有特征節點及其取值進行遍歷,得到所有特征節點之間的第二列聯表;
步驟3.5.2、在關鍵致病因素集合Fi′中選擇一個特征作為當前特征,以關鍵致病因素集合Fi′中除當前特征以外的所有特征為條件集;利用式(1)計算關鍵致病因素集合Fi′中當前特征分別與類別標簽Li之間的條件相關性;
步驟3.5.3、利用式(2)計算當前特征和類別標簽Li之間的自由度,將當前特征和類別標簽Li之間的統計值G2值在相應自由度下漸進為卡方分布,并在卡方分布上進行卡方檢驗,得到對應的概率值;如果對應的概率值大于顯著性水平α,則接受零假設,即當前特征和類別標簽Li之間條件獨立,表明當前特征不是真正的關鍵特征,并將當前特征從關鍵特征集合Fi′中移除;
步驟3.6、重復循環步驟3.4和步驟3.5,直到無特征被添加到關鍵致病因素集合Fi′中,從而得到前i次的醫療數據記錄的關鍵特征;
步驟4、當新的醫療數據到來時,則將i+1賦值給i后,返回步驟2順序執行。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于合肥工業大學,未經合肥工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111196507.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種具有穩定輸送棒狀物資功能的輸送帶
- 下一篇:噴霧器
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





