[發明專利]一種基于深度神經網絡的I型糖尿病風險評估系統在審
| 申請號: | 202110654175.4 | 申請日: | 2021-06-11 |
| 公開(公告)號: | CN113393896A | 公開(公告)日: | 2021-09-14 |
| 發明(設計)人: | 馬玉昆;賈寒;黎松;孫瓊琳;溫顏華;韓仕偉;李偉華 | 申請(專利權)人: | 成都果殼醫學科技有限公司 |
| 主分類號: | G16B20/20 | 分類號: | G16B20/20;G16B20/30;G16B20/50;G16B5/00;G06N3/08;G06N3/04 |
| 代理公司: | 北京紀凱知識產權代理有限公司 11245 | 代理人: | 趙悅 |
| 地址: | 610200 四川省成都市成都高新*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 神經網絡 糖尿病 風險 評估 系統 | ||
1.一種基于深度神經網絡的I型糖尿病風險評估系統,其特征在于,包括:數據輸入模塊、位點獲取模塊、位點篩選模塊、模型訓練模塊和模型檢驗模塊;
所述數據輸入模塊,用于輸入或采集樣本數據;
所述位點獲取模塊,用于獲取所述樣本數據的全基因組位點的基因型信息;
所述位點篩選模塊,用于對所述基因型信息進行GWAS統計,對GWAS統計結果進行質量控制,并根據質量控制后的分析結果對所述位點進行篩選;
所述模型訓練模塊,用于根據篩選后的位點對神經網絡模型進行訓練,以獲得最優模型;
所述模型檢驗模塊,用于對所述最優模型進行檢驗。
2.如權利要求1所述的基于深度神經網絡的I型糖尿病風險評估系統,其特征在于,所述數據輸入模塊的樣本數據包括患有糖尿病的樣本數據和對照樣本數據,將所述樣本數據分為訓練集和檢驗集,所述訓練集和檢驗集中均包括患有糖尿病的樣本數據和對照樣本數據,且所述訓練集和檢驗集不存在樣本數據重疊。
3.如權利要求1所述的基于深度神經網絡的I型糖尿病風險評估系統,其特征在于,所述位點獲取模塊中采用芯片檢測技術獲取全基因組位點的基因型信息,所述芯片檢測技術中通過多個芯片進行基因型信息檢測。
4.如權利要求2所述的基于深度神經網絡的I型糖尿病風險評估系統,其特征在于,所述位點篩選模塊中GWAS統計結果至少包括以下內容:染色體號、物理位置、突變位點ID、參考等位、效應等位、效應等位基因頻率、對疾病的效應值、效應值標準差、與疾病關聯的顯著性P值、樣本量大小和種族信息。
5.如權利要求4所述的基于深度神經網絡的I型糖尿病風險評估系統,其特征在于,所述位點篩選模塊中篩選位點的方法包括判斷所述訓練集和檢驗集中樣品缺失位點的周圍非缺失位點的單倍型的基因型,然后根據所述單倍型的基因型對所述樣品缺失位點進行填充,對所述訓練集和檢驗集中填充后的樣品的基因型數據分別進行質量控制。
6.如權利要求5所述的基于深度神經網絡的I型糖尿病風險評估系統,其特征在于,所述質量控制包括去除重復的位點,去除不明確位點,保留最小等位頻率MAF大于0.01且填充INFO值大于0.5的位點;所述不明確位點是指參考堿基和變異堿基同時為嘌呤或者嘧啶。
7.如權利要求2所述的基于深度神經網絡的I型糖尿病風險評估系統,其特征在于,所述模型訓練模塊包括數據轉換子模塊、模型建立子模塊、面積計算子模塊和模型輸出子模塊;
所述數據轉換子模塊,用于對所述基因型信息進行數據轉換和標準化,并對表型性狀進行重新編碼;
所述模型建立子模塊,用于以對疾病具有效能的突變位點作物自變量,以疾病性表型性狀作為因變量構建多因素邏輯回歸模型;
所述面積計算子模塊,用于獲得所述多因素邏輯回歸模型的ROC曲線,并計算ROC曲線下面積;
所述輸出模塊,用于輸出所述ROC曲線下面積最大時對應的多因素邏輯回歸模型。
8.如權利要求7所述的基于深度神經網絡的I型糖尿病風險評估系統,其特征在于,所述模型建立子模塊中按照不同的P值篩選出候選的突變位點,并將其作為深度神經網絡模型的輸入層。
9.如權利要求7所述的基于深度神經網絡的I型糖尿病風險評估系統,其特征在于,所述ROC曲線下面積通過五倍交叉檢驗獲得,所述五倍交叉檢驗將所述訓練集中的患有糖尿病的樣本數據和對照樣本數據隨機分為若干份,將若干份的數據按照預設比例分為訓練子集和檢驗子集,以訓練子集對所述模型進行訓練,以所述檢驗子集中的數據對模型進行檢驗,將若干份數據輸入經過檢驗的模型,進行再次檢驗,獲得ROC曲線,計算ROC曲線下面積,重復五倍交叉檢驗預設次數,將每次獲得的ROC曲線下面積取平均值,所述平均值為最終的ROC曲線下面積。
10.如權利要求2所述的基于深度神經網絡的I型糖尿病風險評估系統,其特征在于,所述模型訓練模塊將所述訓練集中數據輸入所述最優模型,以獲得輸出結果的ROC曲線,若ROC曲線下面積大于閾值則所述最優模型為最終選用的模型,否則重新對模型進行訓練。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都果殼醫學科技有限公司,未經成都果殼醫學科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110654175.4/1.html,轉載請聲明來源鉆瓜專利網。





