[發明專利]基于遺傳和環境相關的結直腸癌數據模型的分析方法有效
| 申請號: | 201610953314.2 | 申請日: | 2016-11-03 |
| 公開(公告)號: | CN107066781B | 公開(公告)日: | 2018-09-21 |
| 發明(設計)人: | 章樂;鄭純秋;李甜;周紫垣;陳霸東;邢磊;李婷婷 | 申請(專利權)人: | 西南大學 |
| 主分類號: | G16H50/70 | 分類號: | G16H50/70 |
| 代理公司: | 北京市廣友專利事務所有限責任公司 11237 | 代理人: | 張仲波 |
| 地址: | 400715*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 測試樣本 結直腸癌 標準化數據 數據模型 訓練樣本 分類器 遺傳 預處理 分類準確率 分類準確性 統計分類器 顯著性差異 主成分分析 交集 數據樣本 特征分類 特征基因 特征類型 特征選擇 致癌因子 信息熵 子類 稀疏 分析 參考 分類 人群 檢驗 | ||
本發明提供了一種基于遺傳和環境相關的結直腸癌數據模型的分析方法,包括:接收參考人群的指定特征類型的結直腸癌(CRC)數據;對所述數據進行預處理,得到標準化數據;基于標準化數據,對數據進行分類;對每個子類使用稀疏主成分分析和/或信息熵法和/或Relief方法進行特征選擇;使用維恩圖獲取三種方法的交集,使用U檢驗得到有顯著性差異的特征;將特征基因數據樣本集分成測試樣本和訓練樣本,根據訓練樣本得到訓練后分類器,將測試樣本注入訓練后分類器,對測試樣本進行特征分類,并統計分類器的分類準確性。本發明實施例可以提高提取致癌因子的準確性,提高分類準確率。
技術領域
本發明涉及生物信息學技術領域,主要涉及生物數據分析和生物數據挖掘的方法,具體涉及大遺傳和環境相關的大腸癌數據建立一個穩健的結直腸癌的數據模型,并在該數據模型的基礎上進行數據分析和挖掘。
背景技術
結直腸癌包括結腸癌和直腸癌,是世界范圍內癌癥相關發病和死亡的一個主要原因。2002年約有1023152例新診斷結直腸癌病例,并且528978有例患者死于結直腸癌,結直腸癌在男性惡性腫瘤發病譜和死亡譜中均居第四位分別為,而在女性惡性腫瘤發病譜中居第三位,在死亡譜中居第五位。也就是說每半分鐘就有1人被新診斷為結直腸癌,每分鐘就有1人因患有結直腸癌而死亡。
雖然與北美和西歐發達國家相比,我國結直腸癌發病尚處于中等水平,但是隨著生活環境的變化、人口老齡化及生活方式的西化,我國結直腸癌的發病率近年來呈明顯上升的趨勢。根據中國國家癌癥數據庫資料表明,結直腸癌是中國一年期間發病率上升速度最快的第三大惡性腫瘤,僅次于肺癌、女性乳腺癌。中國結直腸癌患者的發病年齡多在40-60歲,由于結直腸癌起病隱匿,癥狀的公眾知曉度較低,許多患者在確診時已經處于晚期。結直腸癌大約有25%的患者初次就診時就已經發生轉移。另外,高達50%的新診斷患者最終將進展為轉移性結直腸癌,發生轉移的患者能存活5年以上的不足5%。中晚期的結直腸癌患者治療效果較差,其不良預后嚴重影響患者本人的生活質量的同時,也給腫瘤患者及家人帶來了巨大的經濟負擔。結直腸癌已經成為嚴重影響我國人群生命質量的疾病。
盡管近幾十年來隨著科學技術的發展及診療技術的進步,結直腸癌的治療效果得到了很大的提升,尤其是早期結直腸癌的預后情況大有好轉,但是晚期結直腸癌患者的5年生存率仍極差,而且大多數結直腸癌病例發現時已進入晚 期。如能探明結直腸癌的發病機制,即可在病因上對其進行預防和控制,大大降低其發生率。
結直腸癌的形成既非單純環境因素所致,也非僅僅遺傳因素所為,而是外部致病因素通過一定途徑與相關基因相互作用,導致機體代謝和功能的變化。因此,單純環境因素或基因多態性的研究已不能滿足結直腸癌發生的病因解釋,所以基因-環境交互作用的研究已倍受關注。由于遺傳因素一般恒定不變,我們可以根據其與環境因素交互作用的特點,控制環境、職業和生活方式中的有害暴露因素,以達到有效預防結直腸癌的目的。因此,使用大遺傳和環境相關的大腸癌數據建立一個穩健的結直腸癌風的險預測模型的方法具有重大的現實意義。
隨著疾病遺傳學研究的深入開展,人們發現基因對疾病的影響是非常復雜的,很多疾病并非簡單的由單一環境影響,許多常見疾病和復雜性狀可能.由多種遺傳與環境因素以及它們的相互作用確定,在人群中比較常見,如結直腸癌、糖尿病、骨質疏松癥、高血壓等。在復雜性疾病中,很多位點相互作用并且和環境因素一起影響疾病的形成。
眾所周知,傳統的生物實驗非常昂貴并且要花費大量的時間,所以近年來越來越多的癌癥科學家使用統計模型去預測結直腸癌的發病狀況,從數學的層面上去預測結直腸癌的發病風險或者提取關鍵致癌生物標記。YaZhou Wu等人用傳統的邏輯回歸和交叉分析去分析數據量比較小的結直腸癌病人數據,確定預測模型去探索結直腸癌的發病狀況;Ritchie和她的同事等人基于統計量和交叉驗證提出了多因子降維法(MDR)來探索結直腸癌的致癌基因。MDR其基本思想是:先利用部分數據(從全部數據中隨機抽取)得出模型,再在剩余的數據中加以檢驗;并且多次重復這一過程以避免數據的機會性劃分對結果造成的影響。但是,上面的研究方法存在一定的局限性,并沒有提高預測結直腸癌的精度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西南大學,未經西南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610953314.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:同時檢測血清中五種類固醇激素的方法
- 下一篇:一種建筑裝修用架梯





