[發(fā)明專利]基因聚類方法和基于該方法的宏基因組組裝方法和裝置有效
| 申請?zhí)枺?/td> | 201611090611.5 | 申請日: | 2016-12-01 |
| 公開(公告)號: | CN108133122B | 公開(公告)日: | 2020-09-15 |
| 發(fā)明(設(shè)計)人: | 覃友文;高強(qiáng);梁文穎;張義;楊林峰 | 申請(專利權(quán))人: | 深圳華大基因股份有限公司 |
| 主分類號: | G16B30/20 | 分類號: | G16B30/20 |
| 代理公司: | 深圳鼎合誠知識產(chǎn)權(quán)代理有限公司 44281 | 代理人: | 孫銀行;彭家恩 |
| 地址: | 518083 廣東省深圳市鹽田*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基因 方法 基于 宏基 組裝 裝置 | ||
本發(fā)明公開了一種基因聚類方法和基于該方法的宏基因組組裝方法和裝置,所述基因聚類方法包括:根據(jù)每個基因序列或小基因簇在多個樣品中的豐度譜,以及每個大基因簇在多個樣品中的豐度譜,通過多元線性回歸,計算每個大基因簇與每個基因序列或小基因簇的相關(guān)性;找到與每個大基因簇的相關(guān)性大于設(shè)定值的基因序列或小基因簇,并將所找到的基因序列或小基因簇合并至相關(guān)聯(lián)的大基因簇中,組合成新的大基因簇。能夠找到多個基因序列或小基因簇的多個源頭大基因簇,彌補(bǔ)現(xiàn)有方法的不足,從而增加基因簇的大小,并且獲得更好的基因組草圖。
技術(shù)領(lǐng)域
本發(fā)明涉及基因序列信息分析技術(shù)領(lǐng)域,尤其涉及一種基因聚類方法和基于該方法的宏基因組組裝方法和裝置。
背景技術(shù)
宏基因組指來源于同一環(huán)境中所有微生物基因組的集合,如人腸道宏基因組表示人腸道中存在的所有微生物的基因組。快速發(fā)展的第二代DNA測序技術(shù)可以有效獲取宏基因組數(shù)據(jù),通過生物信息技術(shù)的進(jìn)一步分析,解讀微生物群落的組成以及解析微生物群落的功能。然而,由于宏基因組由多個基因組混合組成,從宏基因組中解析出單個基因組是研究的一個重點和難點。
目前,已有研究通過基因序列在多樣品之間的豐度譜關(guān)聯(lián)信息,將基因序列聚集成基因簇,進(jìn)而對較大的基因簇進(jìn)行獨(dú)立的基因組組裝,從而得到單個基因組草圖(Nielsen H.B.等人,Nature Biotechnology,2014)。該技術(shù)具體步驟如下:(1)通過宏基因組組裝、基因預(yù)測、基因序列去冗余獲取多樣品特有的非冗余基因序列集合;(2)將測序讀長序列(Reads)比對到上一步獲取的基因序列集合,計算每個基因在每個樣品的豐度,得到基因在多樣品中的豐度譜;(3)根據(jù)基因在多樣品的豐度譜,計算基因與基因之間的相關(guān)系數(shù),根據(jù)相關(guān)系數(shù)對基因進(jìn)行聚類,將相關(guān)系數(shù)滿足一定閾值的基因聚集成基因簇;(4)將測序Reads比對到較大的基因簇,獲取單個基因簇特有的測序Reads,進(jìn)行單獨(dú)組裝,獲得單個基因組草圖。
現(xiàn)有技術(shù)的關(guān)鍵假設(shè)是來源于同一DNA分子的基因序列,在多樣品中的豐度譜表現(xiàn)出強(qiáng)的相關(guān)性。然而,有一些基因序列同時存在多個基因組,它們的豐度譜由多個基因組決定,并不與其中任何一個基因組有強(qiáng)相關(guān)性。現(xiàn)有技術(shù)無法將此類型的基因序列聚集到對應(yīng)的基因簇,而且這些基因具有重要的生物功能,如持家基因和核糖體基因等,是基因組的重要組成。
發(fā)明內(nèi)容
本發(fā)明提出一種基因聚類方法和基于該方法的宏基因組組裝方法,本發(fā)明的基因聚類方法能夠找到多個基因序列或小基因簇的多個源頭大基因簇,彌補(bǔ)現(xiàn)有方法的不足,從而增加基因簇的大小,并且獲得更好的基因組草圖。
根據(jù)本發(fā)明的第一方面,本發(fā)明提供一種基因聚類方法,用于將多個基因序列或小基因簇聚類到多個大基因簇中,其中上述基因簇是指一組有相同來源的基因集合,上述小基因簇是指基因數(shù)量小于預(yù)設(shè)值的基因集合,上述大基因簇是指基因數(shù)量大于上述預(yù)設(shè)值的基因集合;上述方法包括:
根據(jù)每個上述基因序列或小基因簇在多個樣品中的豐度譜,以及每個上述大基因簇在上述多個樣品中的豐度譜,通過多元線性回歸,計算每個上述大基因簇與每個上述基因序列或小基因簇的相關(guān)性;
找到與每個上述大基因簇的相關(guān)性大于設(shè)定值的基因序列或小基因簇,并將所找到的基因序列或小基因簇合并至相關(guān)聯(lián)的大基因簇中,組合成新的大基因簇。
進(jìn)一步地,上述方法中的多元線性回歸依據(jù)如下方程式進(jìn)行:
其中,Eij表示基因序列或小基因簇j在樣品i中的相對豐度,aik表示大基因簇k在樣品i中的相對豐度,ekj表示基因序列或小基因簇j與大基因簇k的相關(guān)性。
進(jìn)一步地,上述方法還包括使用系數(shù)收縮技術(shù)計算出上述相關(guān)性ekj。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳華大基因股份有限公司,未經(jīng)深圳華大基因股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611090611.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





