[發明專利]一種基于深度學習模型獲取多基因風險評分的方法及系統有效
| 申請號: | 201911342136.X | 申請日: | 2019-12-24 |
| 公開(公告)號: | CN111128298B | 公開(公告)日: | 2022-12-02 |
| 發明(設計)人: | 馬寶山;李重陽;嚴浩文;方明坤 | 申請(專利權)人: | 大連海事大學 |
| 主分類號: | G16B20/20 | 分類號: | G16B20/20;G16B40/00;G06N3/04;G06N3/08 |
| 代理公司: | 大連至誠專利代理事務所(特殊普通合伙) 21242 | 代理人: | 涂文詩;鄧珂 |
| 地址: | 116000 遼寧省*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 模型 獲取 多基因 風險 評分 方法 系統 | ||
1.一種基于深度學習模型獲取多基因風險評分的方法,其特征在于,包括:
S1、對原始SNP樣本數據進行預處理;
S2、創建SNP數據與疾病風險評分關系的深度學習模型,所述深度學習模型至少包括深層神經網絡模型、卷積神經網絡模型和殘差神經網絡模型;在創建所述深度學習模型之前還包括將預處理之后的SNP樣本數據劃分為訓練數據以及測試數據;
S3、對所述深度學習模型進行優化;
S4、基于優化后的深度學習模型對待評分的SNP數據進行評分;
所述深層神經網絡模型的創建過程包括:
S201、設定所述深層神經網絡模型的輸入層,其中,訓練樣本數為m,SNP位點數為n,則SNP數據對應的矩陣表示為X(m*n),其中,所述矩陣中的每一行對應一個SNP數據,每一列對應所述SNP數據的位點;
S202、設定所述深層神經網絡模型每層之間采用全連接的方式,即除輸入層外,模型中各個神經元存儲的數據與上一層所有神經元有關,對應的關系如下述公式所示:
其中,Nh,k表示第h層第k個神經元,h≥2,wh-1,k表示第h-1層的第k個神經元的權重,bh-1,k表示第h-1層的第k個神經元的偏置,f()表示激活函數;
S203、基于數據變量對應的表型,計算所述深層神經網絡模型前向傳播的誤差,即若所述表型為連續型變量,則對應的損失函數公式為下述公式
其中標簽Y用于計算模型前向傳播的誤差,表示所述模型前向傳播的輸出向量,w,b分別表示所述模型中所有神經元的權重和偏置;
若所述表型為二值離散型變量,則對應的損失函數公式為下述公式
其中,y(i)表示標簽Y的第i個元素,表示的第i個元素;
所述卷積神經網絡模型的創建過程包括:
S211、設定所述卷積神經網絡模型的輸入層,其中,所述輸入層為被表示成1*n*1*m四個維度的SNP樣本數據構成;其中前兩個維度對應的1與n表示1行n列,以對應每個SNP樣本數據的形狀,第三個維度1表示通道數,第四維度m表示SNP樣本數據的個數;
S212、設定所述卷積神經網絡模型的卷積層與池化層,所述卷積層包括多個1*f大小的卷積核組成,其中,卷積核的個數對應該層輸出數據的通道數;
S213、設定輸出層以及連接所述池化層與輸出層的全連接層;
S214、基于數據變量對應的表型,計算所述卷積神經網絡模型前向傳播的誤差,即若所述表型為連續型變量,則對應的損失函數公式為下述公式
若所述表型為離散型變量,則對應的損失函數公式為下述公式
其中,wfilter,bfilter,wfc,bfc分別表示卷積核的權重、偏置,全連接層神經元的權重、偏置;
所述殘差神經網絡模型的創建過程包括:
S221、設定所述殘差神經網絡模型的輸入層,其中,所述輸入層為被表示成1*n*1*m四個維度的SNP樣本數據構成;其中前兩個維度對應的1與n表示1行n列,即1行n列對應每個SNP樣本數據的形狀,第三個維度1表示通道數,第四維度m表示樣本數據的個數;
S222、設定所述殘差神經網絡模型的卷積層和池化層,所述卷積層包括多個1*f大小的卷積核組成,其中,卷積核的個數對應該層輸出數據的通道數;且為實現在不增加計算量的同時改變該層的通道數則在該層對應的支路上使用1*1的卷積核進行處理;
S223、設定輸出層以及連接所述池化層與輸出層的全連接層;
S224、基于數據變量對應的表型,計算所述殘差神經網絡模型前向傳播的誤差,即若所述表型為連續型變量,則對應的損失函數公式為下述公式
若所述表型為離散型變量,則對應的損失函數公式為下述公式
其中,wfilter,bfilter,wfc,bfc分別表示卷積核的權重、偏置,全連接層神經元的權重、偏置。
2.一種基于深度學習模型獲取多基因風險評分的系統,其特征在于,包括:
數據預處理單元,該單元能夠對原始SNP樣本數據進行預處理;
模型創建單元,該單元能夠創建SNP數據與疾病風險評分關系的深度學習模型,所述深度學習模型至少包括深層神經網絡模型、卷積神經網絡模型和殘差神經網絡模型;其中,所述深層神經網絡模型的創建過程包括:
S201、設定所述深層神經網絡模型的輸入層,其中,訓練樣本數為m,SNP位點數為n,則SNP數據對應的矩陣表示為X(m*n),其中,所述矩陣中的每一行對應一個SNP數據,每一列對應所述SNP數據的位點;
S202、設定所述深層神經網絡模型每層之間采用全連接的方式,即除輸入層外,模型中各個神經元存儲的數據與上一層所有神經元有關,對應的關系如下述公式所示:
其中,Nh,k表示第h層第k個神經元,h≥2,wh-1,k表示第h-1層的第k個神經元的權重,bh-1,k表示第h-1層的第k個神經元的偏置,f()表示激活函數;
S203、基于數據變量對應的表型,計算所述深層神經網絡模型前向傳播的誤差,即若所述表型為連續型變量,則對應的損失函數公式為下述公式
其中標簽Y用于計算模型前向傳播的誤差,表示所述模型前向傳播的輸出向量,w,b分別表示所述模型中所有神經元的權重和偏置;
若所述表型為二值離散型變量,則對應的損失函數公式為下述公式
其中,y(i)表示標簽Y的第i個元素,表示的第i個元素;
所述卷積神經網絡模型的創建過程包括:
S211、設定所述卷積神經網絡模型的輸入層,其中,所述輸入層為被表示成1*n*1*m四個維度的SNP樣本數據構成;其中前兩個維度對應的1與n表示1行n列,以對應每個SNP樣本數據的形狀,第三個維度1表示通道數,第四維度m表示SNP樣本數據的個數;
S212、設定所述卷積神經網絡模型的卷積層與池化層,所述卷積層包括多個1*f大小的卷積核組成,其中,卷積核的個數對應該層輸出數據的通道數;
S213、設定輸出層以及連接所述池化層與輸出層的全連接層;
S214、基于數據變量對應的表型,計算所述卷積神經網絡模型前向傳播的誤差,即若所述表型為連續型變量,則對應的損失函數公式為下述公式
若所述表型為離散型變量,則對應的損失函數公式為下述公式
其中,wfilter,bfilter,wfc,bfc分別表示卷積核的權重、偏置,全連接層神經元的權重、偏置;
所述殘差神經網絡模型的創建過程包括:
S221、設定所述殘差神經網絡模型的輸入層,其中,所述輸入層為被表示成1*n*1*m四個維度的SNP樣本數據構成;其中前兩個維度對應的1與n表示1行n列,即1行n列對應每個SNP樣本數據的形狀,第三個維度1表示通道數,第四維度m表示樣本數據的個數;
S222、設定所述殘差神經網絡模型的卷積層和池化層,所述卷積層包括多個1*f大小的卷積核組成,其中,卷積核的個數對應該層輸出數據的通道數;且為實現在不增加計算量的同時改變該層的通道數則在該層對應的支路上使用1*1的卷積核進行處理;
S223、設定輸出層以及連接所述池化層與輸出層的全連接層;
S224、基于數據變量對應的表型,計算所述殘差神經網絡模型前向傳播的誤差,即若所述表型為連續型變量,則對應的損失函數公式為下述公式
若所述表型為離散型變量,則對應的損失函數公式為下述公式
其中,wfilter,bfilter,wfc,bfc分別表示卷積核的權重、偏置,全連接層神經元的權重、偏置;
模型優化單元,該單元能夠對所述深度學習模型進行優化;
數據評分單元,該單元能夠基于優化后的深度學習模型對待評分的SNP數據進行評分。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連海事大學,未經大連海事大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911342136.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種KU波段高頻頭
- 下一篇:高效節水深度處理與節能型零排處理設備及方法





