[發(fā)明專利]一種基于稀疏匹配的多組學(xué)數(shù)據(jù)關(guān)聯(lián)關(guān)系發(fā)現(xiàn)方法有效
| 申請?zhí)枺?/td> | 201810258802.0 | 申請日: | 2018-03-27 |
| 公開(公告)號: | CN108509771B | 公開(公告)日: | 2020-12-22 |
| 發(fā)明(設(shè)計)人: | 蔡就倫;蔡宏民 | 申請(專利權(quán))人: | 華南理工大學(xué) |
| 主分類號: | G16B40/00 | 分類號: | G16B40/00 |
| 代理公司: | 廣州市華學(xué)知識產(chǎn)權(quán)代理有限公司 44245 | 代理人: | 李斌 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 稀疏 匹配 多組學(xué) 數(shù)據(jù) 關(guān)聯(lián) 關(guān)系 發(fā)現(xiàn) 方法 | ||
本發(fā)明公開了一種基于稀疏匹配的多組學(xué)數(shù)據(jù)關(guān)聯(lián)關(guān)系發(fā)現(xiàn)方法,包括:對輸入數(shù)據(jù)進(jìn)行預(yù)處理,提高數(shù)據(jù)的質(zhì)量;根據(jù)數(shù)據(jù)特點,選擇合適的相似性度量,計算數(shù)據(jù)特征之間的相似性矩陣;基于特征之間的相似性網(wǎng)絡(luò),融入先驗信息,挖掘數(shù)據(jù)特征之間的潛在關(guān)聯(lián)關(guān)系。本發(fā)明方法可以充分利用現(xiàn)有已被證實的組學(xué)數(shù)據(jù)的特征的先驗信息,減少噪音對結(jié)果的影響、降低數(shù)據(jù)誤差所帶來的不確定性,提高結(jié)果的精確性與魯棒性。
技術(shù)領(lǐng)域
本發(fā)明涉及生物信息技術(shù)領(lǐng)域,特別涉及一種基于稀疏匹配的多組學(xué)數(shù)據(jù)關(guān)聯(lián)關(guān)系發(fā)現(xiàn)方法。
背景技術(shù)
生物組學(xué)由基因組學(xué)(Genomics)、轉(zhuǎn)錄組學(xué)(Transcriptomics)、蛋白質(zhì)組學(xué)(Proteomics)和代謝組學(xué)(Metabolomics)共同構(gòu)成,旨在從整體的角度出發(fā),研究人類基因、核糖核酸、蛋白質(zhì)及其代謝物等的相互的作用,通過整合分析人體各個層次組織的內(nèi)在關(guān)聯(lián),為探索人類疾病的發(fā)病機制提供更加科學(xué)全面的方法。
隨著科學(xué)技術(shù)的發(fā)展,高通量測序技術(shù)的出現(xiàn)極大地降低了測序的成本,提高了測序的性能,使得高效全面地測定同一樣本不同層次的組學(xué)數(shù)據(jù)成為可能。TCGA(TheCancer Genome Atlas)數(shù)據(jù)庫整合了33種癌癥、26種組織類型、超過11000個腫瘤病例、大小約2.5PB的組學(xué)測序數(shù)據(jù),其中絕大部分病例均同時具有單核苷酸變異數(shù)據(jù)、RNA-seq測序數(shù)據(jù)、基因拷貝數(shù)變異(CNV)、甲基化數(shù)據(jù)(DNA methylation)和臨床數(shù)據(jù)等多個組學(xué)的數(shù)據(jù)。這些海量多源異構(gòu)數(shù)據(jù)能在基因組、轉(zhuǎn)錄組、蛋白質(zhì)組、代謝組水平多層次多方位提供描述腫瘤發(fā)生發(fā)展的重要信息,堅實地奠定了整合分析多組學(xué)數(shù)據(jù)關(guān)聯(lián)關(guān)系發(fā)現(xiàn)的數(shù)據(jù)來源基礎(chǔ),為定性定量地揭示腫瘤發(fā)生發(fā)展的機理提供了的前所未有的機遇。
相關(guān)科學(xué)理論的不斷深入以及相關(guān)的實踐研究不斷增多,使得研究人員發(fā)現(xiàn)基于單一組學(xué)數(shù)據(jù)的研究分析方法只能從單一的角度理解疾病發(fā)生發(fā)展在分子水平上的變化特征,已經(jīng)無法滿足進(jìn)一步解釋復(fù)雜的疾病機理過程的需求。整合多個組學(xué)數(shù)據(jù)能夠補償單一組學(xué)數(shù)據(jù)中的數(shù)據(jù)丟失及糾正部分錯誤信息,從整體的視角全面多方位地描述疾病發(fā)生發(fā)展過程中在各個組學(xué)層次上的變化特征,有效地降低了基于單一組學(xué)數(shù)據(jù)研究實驗中出現(xiàn)假陽性的概率。鑒于此,研究學(xué)者致力于嘗試整合分析多個組學(xué)層面的數(shù)據(jù),全面研究病變過程中多組學(xué)數(shù)據(jù)之間內(nèi)在的相互關(guān)聯(lián)關(guān)系及其協(xié)同變化規(guī)律,提高對生物體系統(tǒng)機制的認(rèn)識。例如,研究學(xué)者基于貝葉斯網(wǎng)絡(luò)推理模型,對黑色素瘤病人的染色體拷貝數(shù)變異數(shù)據(jù)與基因表達(dá)數(shù)據(jù)進(jìn)行整合分析,以檢測誘發(fā)黑色素瘤的產(chǎn)生因素,最終證實了抗體TBC1D16及蛋白質(zhì)RAB27A的異常調(diào)控會導(dǎo)致黑色素瘤的增殖。研究人員使用酵母種群的基因表達(dá)數(shù)據(jù)、轉(zhuǎn)錄因子結(jié)合位點(TFBS)和蛋白質(zhì)-蛋白質(zhì)相互作用(PPI)數(shù)據(jù)重構(gòu)了基因調(diào)控網(wǎng)絡(luò),并通過預(yù)測常見的酵母群體基因表達(dá)活性調(diào)控證明其有效性。生物學(xué)家將單核苷酸多態(tài)性數(shù)據(jù)和mRNA基因表達(dá)做串聯(lián)整合,隨機選擇變量作為層次貝葉斯模型的數(shù)據(jù)輸入,檢測單核苷酸多態(tài)性、基因表達(dá)變異和表型變化之間的關(guān)聯(lián),等等。雖然現(xiàn)有模型都通過整合多個組學(xué)數(shù)據(jù)以發(fā)掘它們之間的潛在關(guān)聯(lián)關(guān)系,降低了單一組學(xué)數(shù)據(jù)隨機性誤差所造成的假陽性率,但大多數(shù)模型都存在一些不足之處,如整合研究方法過于簡單、數(shù)據(jù)來源沒有統(tǒng)一性、樣本量不足等等。
同時,絕大部分的研究都僅僅聚焦于組學(xué)數(shù)據(jù)本身,很少考慮在模型中加入其他重要的先驗信息,甚至完全沒有利用現(xiàn)有的已證實的信息,而對先驗信息的合理利用對模型準(zhǔn)確性、健壯性和執(zhí)行效率的提高有明顯的積極影響。隨著生物信息學(xué)的發(fā)展,越來越多的組學(xué)數(shù)據(jù)之間的潛在關(guān)聯(lián)已被證實,如基因調(diào)控網(wǎng)絡(luò)、蛋白質(zhì)-蛋白質(zhì)相互作用網(wǎng)絡(luò)和代謝路徑網(wǎng)絡(luò)等等。充分地利用已被證實及廣泛接受的先驗信息能夠降低因生物數(shù)據(jù)噪音大而導(dǎo)致結(jié)果誤差大的影響,提高結(jié)果的準(zhǔn)確性及可靠性。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的缺點與不足,提供一種基于稀疏匹配的多組學(xué)數(shù)據(jù)關(guān)聯(lián)關(guān)系發(fā)現(xiàn)方法,可以有效充分地利用被證實的先驗組學(xué)信息,減少噪音對結(jié)果的影響、降低數(shù)據(jù)誤差所帶來的不確定性和提高結(jié)果的精確性與魯棒性。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華南理工大學(xué),未經(jīng)華南理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810258802.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 基于多組學(xué)豐度信息的蛋白質(zhì)二級質(zhì)譜鑒定方法
- 基于病例多組學(xué)變異特征的精準(zhǔn)醫(yī)學(xué)知識搜索系統(tǒng)及實現(xiàn)方法
- 一種多組學(xué)數(shù)據(jù)聯(lián)合分析的方法
- 一種從多組學(xué)數(shù)據(jù)中分析關(guān)聯(lián)變化模式的系統(tǒng)和方法
- 多組學(xué)數(shù)據(jù)擾動云
- 基于D-S證據(jù)理論進(jìn)行多組學(xué)數(shù)據(jù)集成的癌癥亞型分類方法
- 一種非小細(xì)胞肺癌患者術(shù)后復(fù)發(fā)相關(guān)性因素研究方法
- 一種基于深度學(xué)習(xí)的多組學(xué)智能診斷系統(tǒng)
- 用于癌癥基因組和臨床數(shù)據(jù)綜合分析的多組學(xué)搜索引擎
- 單組學(xué)及多組學(xué)KEGG PATHWAY map表達(dá)熱圖個性化展示的方法及應(yīng)用





