[發(fā)明專(zhuān)利]基于多源信息融合的疾病潛在關(guān)聯(lián)基因的獲取方法有效
| 申請(qǐng)?zhí)枺?/td> | 201210309375.7 | 申請(qǐng)日: | 2012-08-28 |
| 公開(kāi)(公告)號(hào): | CN102855398A | 公開(kāi)(公告)日: | 2013-01-02 |
| 發(fā)明(設(shè)計(jì))人: | 高一波;陳迪;盧朋;陳琳;劉西;代文;宋江龍;溫偉娜 | 申請(qǐng)(專(zhuān)利權(quán))人: | 中國(guó)科學(xué)院自動(dòng)化研究所 |
| 主分類(lèi)號(hào): | G06F19/00 | 分類(lèi)號(hào): | G06F19/00 |
| 代理公司: | 中科專(zhuān)利商標(biāo)代理有限責(zé)任公司 11021 | 代理人: | 宋焰琴 |
| 地址: | 100190 *** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 信息 融合 疾病 潛在 關(guān)聯(lián) 基因 獲取 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及生物信息學(xué)領(lǐng)域,特別涉及利用計(jì)算機(jī)技術(shù)預(yù)測(cè)疾病潛在關(guān)聯(lián)基因領(lǐng)域。
背景技術(shù)
目前,隨著生物技術(shù)、計(jì)算機(jī)技術(shù)及高通量技術(shù)的發(fā)展,各個(gè)領(lǐng)域積累了疾病相關(guān)的大量文獻(xiàn)和數(shù)據(jù),面對(duì)這些數(shù)據(jù),需要采用有效方法從這些數(shù)據(jù)中找到最有意義的部分,預(yù)測(cè)疾病相關(guān)的基因,從而用于幫助疾病的治療。深入挖掘復(fù)雜疾病的關(guān)聯(lián)基因成為一項(xiàng)在疾病相關(guān)研究中的重要挑戰(zhàn),對(duì)于臨床診治具有重要的指導(dǎo)意義,而且大量已有研究表明如果能深入挖掘疾病關(guān)聯(lián)基因潛在的知識(shí),對(duì)于揭示疾病發(fā)病機(jī)理和生物學(xué)基礎(chǔ),對(duì)于促進(jìn)診斷和防治疾病的手段,都將產(chǎn)生十分重要的理論和現(xiàn)實(shí)意義。
有關(guān)疾病關(guān)聯(lián)基因的預(yù)測(cè)方法多種多樣,本發(fā)明所涉及的主要有以下三個(gè)方面內(nèi)容:一是生物網(wǎng)絡(luò)技術(shù)。復(fù)雜疾病一般是由多個(gè)遺傳基因及環(huán)境因素共同交互作用而發(fā)生發(fā)展的,并且生物實(shí)體之間(如表型與基因型)沒(méi)有簡(jiǎn)單對(duì)應(yīng)關(guān)系,而是由多基因、多因素等共同作用的結(jié)果。因此,生物網(wǎng)絡(luò)作為這種復(fù)雜關(guān)系的有效表達(dá)方式,越來(lái)越受到領(lǐng)域重視。目前,國(guó)內(nèi)外均已開(kāi)展了大量針對(duì)生物網(wǎng)絡(luò)數(shù)據(jù)的研究工作,盡管生物網(wǎng)絡(luò)在生物信息挖掘中具有重要的作用,但是生物網(wǎng)絡(luò)沒(méi)有方向性,沒(méi)有語(yǔ)義性,在信息獲取和信息挖掘中有著一定的制約。如何建立對(duì)于復(fù)雜疾病研究更有效的生物網(wǎng)絡(luò)還需要進(jìn)一步的努力。二是關(guān)聯(lián)基因預(yù)測(cè)。近年來(lái)關(guān)于基因功能、基因和疾病關(guān)系的生物醫(yī)學(xué)文獻(xiàn)大量涌現(xiàn),為了能夠充分利用已有的研究成果,節(jié)省人力物力,需要將文獻(xiàn)、文本中的生物學(xué)知識(shí)抽取出來(lái)提供給研究人員,幫助他們預(yù)測(cè)基因或疾病,加快相關(guān)研究的進(jìn)展。這方面的研究最早追溯到1986年,芝加哥大學(xué)教授Swanson曾提出“基于非相關(guān)文獻(xiàn)發(fā)現(xiàn)”的方法,具體思想被描述為典型的形式是ABC模式。Seki等人采用Swanson的ABC模式,構(gòu)建了疾病-基因網(wǎng)絡(luò),逐層計(jì)算傳遞概率,從而評(píng)價(jià)基因與目標(biāo)疾病的相關(guān)性,將相關(guān)性高的未知相關(guān)基因識(shí)別為潛在的與目標(biāo)疾病相關(guān)的基因。Lina等人提出一種基于聯(lián)合網(wǎng)絡(luò)拓?fù)涮卣鞯耐诰蛩惴▉?lái)預(yù)測(cè)潛在的與目標(biāo)疾病相關(guān)的基因,定義了四種網(wǎng)絡(luò)拓?fù)涮卣鱽?lái)描述基因網(wǎng)絡(luò),結(jié)合這些拓?fù)涮卣魍ㄟ^(guò)訓(xùn)練支持向量機(jī)來(lái)甄選潛在的相關(guān)基因。吳雪兵等人則假設(shè)功能上相似的基因可能引起表型上相似的疾病,對(duì)基因和疾病表型間的關(guān)系直接建模,利用得到的模型結(jié)果預(yù)測(cè)與癥狀相關(guān)的新致病基因或發(fā)現(xiàn)基因間的協(xié)作關(guān)系。趙研等人基于基因功能一致性和其在蛋白質(zhì)互作網(wǎng)絡(luò)中的拓?fù)鋵傩詫?duì)疾病與基因進(jìn)行關(guān)聯(lián),預(yù)測(cè)出了51個(gè)新的疾病致病基因。三是多源信息融合方法?;蚪M數(shù)據(jù)量龐大,疾病基因之間的關(guān)系復(fù)雜,不同的預(yù)測(cè)方法實(shí)現(xiàn)的結(jié)果并非完全相同,每個(gè)方法相應(yīng)的結(jié)果都有一定的意義,為了更好地對(duì)關(guān)聯(lián)基因進(jìn)行預(yù)測(cè),不僅需要更好的疾病潛在基因獲取的方法,更應(yīng)該關(guān)心如何融合不同的有效方法來(lái)更精確地預(yù)測(cè)疾病潛在關(guān)聯(lián)基因。D-S證據(jù)理論是由Dempster于1986年提出,并由他的學(xué)生Sharer于1971年改進(jìn)使之符合有限離散領(lǐng)域中的推理形式。它是一種決策理論,不但能夠處理由于知識(shí)的不準(zhǔn)確引起的不確定信息,而且能夠處理由于不知道引起的不確定信息,它能滿足比貝葉斯理論更弱的公理系統(tǒng),當(dāng)概率值已知時(shí),證據(jù)理論就變成了貝葉斯理論。該理論引入信任函數(shù)、似然函數(shù)及類(lèi)概率函數(shù)等來(lái)分別描述命題的精確信任度、不可駁斥的信任度及估計(jì)信任度,從而使D-S理論不僅能從不同角度刻畫(huà)命題的不確定性,還能處理由于“不知道”而引起的不確定性,即它既能將未知事件明白的表示出來(lái),也能描述事件及其補(bǔ),使其主觀概率之和為1,因而克服了純概率論模型“不知道”處理的不合理性。
發(fā)明內(nèi)容
(一)要解決的技術(shù)問(wèn)題
本發(fā)明的目的在于提出一種基于多源信息融合的疾病潛在關(guān)聯(lián)基因的獲取方法,融合基于非相關(guān)文獻(xiàn)知識(shí)發(fā)現(xiàn)算法的疾病關(guān)聯(lián)基因預(yù)測(cè)方法、基于基因功能相似度算法的疾病關(guān)聯(lián)基因預(yù)測(cè)方法和基于回歸預(yù)測(cè)模型算法的疾病關(guān)聯(lián)基因預(yù)測(cè)方法,從全局上預(yù)測(cè)潛在的關(guān)聯(lián)基因,為疾病關(guān)聯(lián)基因獲取提供最佳結(jié)果。
(二)技術(shù)方案
為了解決上述技術(shù)問(wèn)題,本發(fā)明提供了一種基于多源信息融合的疾病潛在關(guān)聯(lián)基因獲取方法,該方法包括:
步驟1:基于非相關(guān)文獻(xiàn)知識(shí)發(fā)現(xiàn)算法的疾病關(guān)聯(lián)基因預(yù)測(cè)步驟,獲取第一關(guān)聯(lián)基因集合;
步驟2:基于功能相似性算法的疾病關(guān)聯(lián)基因預(yù)測(cè)步驟,獲取第二關(guān)聯(lián)基因集合;
步驟3:基于回歸預(yù)測(cè)模型算法的疾病關(guān)聯(lián)基因預(yù)測(cè)步驟,獲取第三關(guān)聯(lián)基因集合;
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于中國(guó)科學(xué)院自動(dòng)化研究所,未經(jīng)中國(guó)科學(xué)院自動(dòng)化研究所許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210309375.7/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F19-00 專(zhuān)門(mén)適用于特定應(yīng)用的數(shù)字計(jì)算或數(shù)據(jù)處理的設(shè)備或方法
G06F19-10 .生物信息學(xué),即計(jì)算分子生物學(xué)中的遺傳或蛋白質(zhì)相關(guān)的數(shù)據(jù)處理方法或系統(tǒng)
G06F19-12 ..用于系統(tǒng)生物學(xué)的建模或仿真,例如:概率模型或動(dòng)態(tài)模型,遺傳基因管理網(wǎng)絡(luò),蛋白質(zhì)交互作用網(wǎng)絡(luò)或新陳代謝作用網(wǎng)絡(luò)
G06F19-14 ..用于發(fā)展或進(jìn)化的,例如:進(jìn)化的保存區(qū)域決定或進(jìn)化樹(shù)結(jié)構(gòu)
G06F19-16 ..用于分子結(jié)構(gòu)的,例如:結(jié)構(gòu)排序,結(jié)構(gòu)或功能關(guān)系,蛋白質(zhì)折疊,結(jié)構(gòu)域拓?fù)?,用結(jié)構(gòu)數(shù)據(jù)的藥靶,涉及二維或三維結(jié)構(gòu)的
G06F19-18 ..用于功能性基因組學(xué)或蛋白質(zhì)組學(xué)的,例如:基因型–表型關(guān)聯(lián),不均衡連接,種群遺傳學(xué),結(jié)合位置鑒定,變異發(fā)生,基因型或染色體組的注釋?zhuān)鞍踪|(zhì)相互作用或蛋白質(zhì)核酸的相互作用
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置
- 疾病風(fēng)險(xiǎn)預(yù)測(cè)方法以及執(zhí)行該方法的裝置
- 利用疾病與人體部位的映射進(jìn)行疾病信息可視化的方法
- 疾病術(shù)語(yǔ)的詞處理方法、裝置及計(jì)算機(jī)設(shè)備
- 一種疾病名稱標(biāo)準(zhǔn)化規(guī)范數(shù)據(jù)庫(kù)及其建立方法
- 疾病預(yù)測(cè)方法、裝置、終端及存儲(chǔ)介質(zhì)
- 疾病風(fēng)險(xiǎn)預(yù)測(cè)方法、裝置、計(jì)算機(jī)設(shè)備及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 疾病信息識(shí)別方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 疾病的層級(jí)關(guān)系處理方法、裝置及電子設(shè)備
- 一種基于復(fù)雜網(wǎng)絡(luò)的疾病進(jìn)展路徑挖掘方法
- 知識(shí)圖譜的構(gòu)建和使用方法、裝置和介質(zhì)





