[發明專利]面向缺失數據的基于凹對偶融合補償項的亞組識別方法在審
| 申請號: | 202011168201.4 | 申請日: | 2020-10-28 |
| 公開(公告)號: | CN112349422A | 公開(公告)日: | 2021-02-09 |
| 發明(設計)人: | 趙子鳴;耿子衿;陳清華 | 申請(專利權)人: | 北京師范大學 |
| 主分類號: | G16H50/70 | 分類號: | G16H50/70;G06K9/62 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100875 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 缺失 數據 基于 對偶 融合 補償 識別 方法 | ||
本發明公開了一種面向缺失數據的基于凹對偶融合補償項的亞組識別方法。首先,利用Logistic回歸模型估計缺失概率;然后,建立一般平均項的fused?LASSO凹對偶逆概率加權最小二乘補償損失函數,通過極小化該損失函數進行參數估計使得同一亞組個體的一般平均項相等;最后,基于K?Means聚類方法對帶有缺失數據的樣本進行亞組識別。該方法在樣本量較大、缺失概率適中的情況下有很好的效果,并具有較強的通用性,可以在精準醫療等領域進行應用。
技術領域
本發明為面向缺失數據的基于凹對偶融合補償項的亞組識別方法,屬于數據分析領域,在生物統計與精準醫療等領域有廣泛的應用前景。
背景技術
隨著生物學研究的不斷深入及醫療數字化的初步實現,研究者們發現,即使面對同種疾病,由于患者之間的身體特征差異,相同藥物或方法的治療效果也不盡相同。因此在精準醫療領域,強調利用相關指標的現有信息,利用復雜的分析、判別算法對患者的治療方法做出選擇。而在選擇治療方法的時候,面對的最關鍵的統計挑戰之一就是從異質性群體中識別出“組間差異大、組內差異小”的亞組,從而針對為每個小組實施特定的醫療方法,即亞組識別。
目前,國內外使用的亞組識別方法主要基于混合模型,這類方法對于對于數據的初始分布以及訓練集數據的構成要求較高,且很難處理帶有缺失值的數據。然而,在醫療衛生領域,由于總體情況豐富、人為隱瞞等原因,數據的缺失難以避免。因此,對帶有缺失數據的樣本進行亞組識別,是精準醫療領域需要解決的重要難題。
發明內容
本發明提出了一種基于凹對偶融合補償項的亞組識別方法,可以有效減少數據缺失對亞組識別效果的影響。本方法對于處理醫療數據優勢顯著,在生物統計與精準醫療等領域有廣泛的應用前景,在數據分析領域處理數據缺失問題具有一定的通用性。
本發明為面向缺失數據的基于凹對偶融合補償項的亞組識別方法,包括以下步驟:
(1)利用Logistic回歸模型估計缺失概率。
(2)建立一般平均項的fused-LASSO凹對偶逆概率加權最小二乘補償損失函數,通過極小化該損失函數獲得參數的估計,使得同一亞組個體的一般平均項的估計相等。
(3)基于K-Means聚類方法對帶有缺失數據的樣本進行亞組識別,該方法在樣本量較大、缺失概率適中的情況下有很好的效果。
本發明具有以下有益效果:
(1)本發明在數據存在缺失值的情況下,實現亞組識別,對于精準醫療有重要應用價值。
(2)除了在精準醫療領域,本發明還可以廣泛地應用于存在缺失值的數據集、可能包含部分不準確信息的數據集上,這表明本發明具有較強的通用性。
(3)本發明通過建立一般平均項的fused-LASSO凹對偶逆概率加權最小二乘補償損失函數,并極小化損失函數使得同一亞組個體的一般平均項的估計相等,基于一個線性模型解決了一個模型結構未知、解釋變量稀少的非線性問題。
(4)本發明算法運行速度快,研究表明,在樣本量較大、缺失概率低于20%的情況下,該方法有很好的亞組識別效果。
附圖說明
圖1為基于Logistic回歸模型估計缺失概率的過程。
圖2為建立一般平均項的fused-LASSO凹對偶逆概率加權最小二乘補償損失函數的過程。
圖3為基于K-Means聚類方法對帶有缺失數據的樣本進行亞組識別的過程。
具體實施方式
為了使本發明所要解決的技術問題、技術方案及有益效果更加清楚明白,以下結合附圖和實例,對本發明進行詳細的說明。應當說明的是,此處所描述的具體實施例僅用以解釋本發明,并不用于限定本發明。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京師范大學,未經北京師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011168201.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種動態合并網頁表格的方法
- 下一篇:一種膠帶切割快速分離的制作流程
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





