[發明專利]基于DNA甲基化的基因點位篩選方法在審
| 申請號: | 202210718641.5 | 申請日: | 2022-06-23 |
| 公開(公告)號: | CN115083520A | 公開(公告)日: | 2022-09-20 |
| 發明(設計)人: | 李琦;潘常春;劉海春;王宏武 | 申請(專利權)人: | 上海交通大學 |
| 主分類號: | G16B20/40 | 分類號: | G16B20/40;G16B30/10;G16B40/20;G06K9/62;G06N3/04 |
| 代理公司: | 上海劍秋知識產權代理有限公司 31382 | 代理人: | 徐浩俊 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 dna 甲基化 基因 篩選 方法 | ||
本發明提供了一種基于DNA甲基化的基因點位篩選方法,所述方法包括:1)通過元學習獲得基因點位篩選模型的初始化參數;2)基于步驟1)獲得的初始化參數重新訓練基因點位篩選模型。本發明所提供的方法能夠緩解基因點位篩選模型訓練時的過度擬合現象。
技術領域
本發明涉及一種篩選基因點位的方法,特別涉及一種基于DNA甲基化的基因點位篩選方法。
背景技術
精神分裂癥是一種以幻覺、妄想、思想紊亂和認知缺陷為特征的精神類疾病,會影響一個人的思想、感覺和行為。精神分裂癥的癥狀逐漸發展或突然出現,因患者而異,病情以緩解和復發的周期發展。隨著時間的流逝,精神分裂癥患者的心理功能和社會關系會緩慢下降,這會導致患者明顯的性格改變,社會孤立,職業障礙,認知障礙和健康不良,容易導致自殺行為以及對他人的暴力攻擊行為。
目前對于精神分裂癥的病因尚不明確,醫學上的一些研究認為基因間的相互作用和一系列環境因素可能導致精神分裂癥的發生。因此引發了關于表觀遺傳學對于精神分裂癥的形成的影響的諸多研究。DNA甲基化則是最早被發現,研究最深入的表觀遺傳學修飾之一,它參與許多細胞調節的過程。目前可以通過高通量的芯片進行采集。更為重要的是,對其進行特征選擇并可以挖掘到同精神分裂癥相關的主要基因點位。于此同時,DNA甲基化水平是可逆的,進而醫學專家可以通過研究逆轉DNA甲基化的藥物來治療精神分裂癥疾病。
另外,DNA甲基化也是多種癌癥發生的重要原因之一。通過DNA甲基化數據篩選重要的基因點位可以為治療癌癥提供重要依據。
DNA甲基化數據是一種典型的高維小樣本數據。首先,數據的高維雖然涵蓋了很多關鍵信息,但是高維數據中也存在大量冗余以及非關鍵信息,這給特征選擇帶來了更大的難度。其次,樣本過少十分容易降低機器學習算法的性能,模型會出現過擬合的現象。公開號為CN112927757A的專利使用差異分析等統計的方式進行甲基化數據的特征選擇,但是該發明僅僅關注于如何盡可能多的從數據中抽取信息,卻忽略了過擬合對于最終效果的影響。
發明內容
有鑒于現有技術的上述缺陷,本發明提供了一種基于DNA甲基化的基因點位篩選方法,要解決的技術問題是緩解基因點位篩選模型訓練時的過度擬合現象。
為解決上述問題,本發明采取的技術方案是:一種基于DNA甲基化的基因點位篩選方法,所述方法包括:
1)通過元學習獲得基因點位篩選模型的初始化參數;
2)基于步驟1)獲得的初始化參數重新訓練基因點位篩選模型。
優選地,所述方法還包括:對所述的DNA甲基化數據進行預處理。
優選地,所述預處理包括:清洗處理、和/或等分位數標準化處理、和/或分段處理。
優選地,所述基因點位篩選模型包括權重門控層、全連接層和softmax層。
優選地,所述全連接層為四層。
優選地,在步驟1)中,所獲得的初始化參數為所述的全連接層的參數;在步驟2)中,重新訓練點位篩選模型時僅更新所述的權重門控層的參數。
優選地,所述方法還包括:添加權重門控層的L1范數以獲得稀疏結果,并添加完全連接層的參數的L2范數以限制模型的復雜性。
優選地,所述基因點位為精神分裂癥基因點位。
優選地,所述方法還包括:將獲得的特征選擇結果進行分類處理。
優選地,所述分類處理為:將特征選擇的結果進行壓縮編碼輸入到線性SVM分類器中進行分類。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海交通大學,未經上海交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210718641.5/2.html,轉載請聲明來源鉆瓜專利網。





