[發(fā)明專(zhuān)利]基因組性染色體非同源區(qū)域的鑒定方法和裝置有效
| 申請(qǐng)?zhí)枺?/td> | 202110746653.4 | 申請(qǐng)日: | 2021-07-02 |
| 公開(kāi)(公告)號(hào): | CN113205857B | 公開(kāi)(公告)日: | 2021-09-28 |
| 發(fā)明(設(shè)計(jì))人: | 周勛;趙勇;陶琳娜;蘇亞南;王龍 | 申請(qǐng)(專(zhuān)利權(quán))人: | 天津諾禾致源生物信息科技有限公司 |
| 主分類(lèi)號(hào): | G16B30/00 | 分類(lèi)號(hào): | G16B30/00 |
| 代理公司: | 北京康信知識(shí)產(chǎn)權(quán)代理有限責(zé)任公司 11240 | 代理人: | 路秀麗 |
| 地址: | 301700 天津市*** | 國(guó)省代碼: | 天津;12 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基因組 染色體 同源 區(qū)域 鑒定 方法 裝置 | ||
本申請(qǐng)?zhí)峁┝艘环N基因組性染色體非同源區(qū)域的鑒定方法和裝置。該鑒定方法包括獲取XY型或ZW型個(gè)體以及XX型或ZZ型個(gè)體的二代測(cè)序數(shù)據(jù),各個(gè)體的測(cè)序深度為第一測(cè)序深度;獲取通過(guò)三代測(cè)序數(shù)據(jù)組裝得到的XY型或ZW型個(gè)體的組裝基因組;分別計(jì)算XY型或ZW型個(gè)體以及XX型或ZZ型個(gè)體的二代測(cè)序數(shù)據(jù)與組裝基因組的比對(duì)結(jié)果中每個(gè)contig或scaffold測(cè)序深度,分別記為第二測(cè)序深度和第三測(cè)序深度;第二測(cè)序深度為第一測(cè)序深度的1/2~2/3,且第三測(cè)序深度小于第一測(cè)序深度的1/10的contig或scaffold是性染色體非同源區(qū)域。利用兩種性別個(gè)體的reads深度共同鑒定的非同源區(qū)域更準(zhǔn)確。
技術(shù)領(lǐng)域
本申請(qǐng)涉及基因組組裝領(lǐng)域,具體而言,涉及一種基因組性染色體非同源區(qū)域的鑒定方法和裝置。
背景技術(shù)
每一個(gè)物種的參考基因組序列(reference genome)的產(chǎn)生都要先通過(guò)測(cè)序的方法,獲得基因組的測(cè)序讀段(reads),然后再進(jìn)行從頭拼接或組裝(英文名稱(chēng)為de novogenome assembly),最后還原測(cè)序物種的各條染色體的序列,即ATGC四種堿基的排列順序。
由于目前的高通量測(cè)序技術(shù)雖然通量較高,但讀段較短,無(wú)法直接測(cè)序獲取一整條染色體的序列。其中,一代測(cè)序(Sanger測(cè)序)一般可測(cè)1kb左右的序列;二代測(cè)序(next-generation sequencing),一般可測(cè)50~500bp;三代測(cè)序雖然可測(cè)100kb甚至更長(zhǎng)的序列,但現(xiàn)在三代測(cè)序技術(shù)的測(cè)序錯(cuò)誤率相對(duì)較高。
目前基因組測(cè)序數(shù)據(jù)的從頭組裝過(guò)程簡(jiǎn)單描述為:測(cè)序讀段(reads)----重疊群(contig)----支架(scaffold)----染色體(chromosome)。具體地,基因組測(cè)序產(chǎn)生reads,然后基于reads之間的重疊的區(qū)域,對(duì)reads進(jìn)行組裝產(chǎn)生長(zhǎng)片段的重疊群(contigs),再確定contig的方向和順序,進(jìn)一步組裝產(chǎn)生更長(zhǎng)的片段支架(scaffolds),最后再組裝連接scaffold得到完整的染色體序列。
其中,contig是由多個(gè)reads通過(guò)重疊的區(qū)域進(jìn)行組裝而形成的長(zhǎng)片段。由于測(cè)序讀段較短、基因組序列通常含有較多重復(fù)序列、而且還有測(cè)序錯(cuò)誤等原因,除了簡(jiǎn)單的基因組序列外,大部分物種的基因組序列組裝需要先組裝成多個(gè)contigs。
進(jìn)一步地,方向和順序已經(jīng)確定的多條contig序列連接形成的更長(zhǎng)的片段,稱(chēng)為scaffold。scaffold的獲得一般主要通過(guò)雙端測(cè)序(如paired-end sequencing或mate-pair sequencing)或者bionano光學(xué)圖譜技術(shù)來(lái)確定contig的順序和方向,以及contig之間的間隔距離。
基因組從頭組裝過(guò)程中,應(yīng)用二代測(cè)序數(shù)據(jù)結(jié)合三代測(cè)序數(shù)據(jù)能夠?qū)⒒蚪M初步組裝到contig水平,通過(guò)Hi-C技術(shù)(High-through Chromosome conformation capture,高通量測(cè)序與染色體構(gòu)型捕獲相結(jié)合的技術(shù))能夠基于染色體內(nèi)部互作關(guān)系將基因組掛載至近染色體水平,目前已發(fā)表的大部分基因組均能夠達(dá)到近染色體水平,而性染色體非同源區(qū)域在組裝過(guò)程中往往不能進(jìn)行有效區(qū)分。
性染色體分為XY基因型和ZW基因型,所有哺乳類(lèi)動(dòng)物、多數(shù)雌雄異株植物、昆蟲(chóng)、某些魚(yú)類(lèi)及兩棲類(lèi)動(dòng)物的性別決定方式為XY基因型。ZW基因型普遍存在于鱗翅目昆蟲(chóng)、兩棲類(lèi)、爬行類(lèi)和鳥(niǎo)類(lèi)之中。XY基因型中,XX基因型為雌性,XY基因型為雄性。ZW基因型中,ZW基因型為雌性,ZZ基因型為雄性。
由于X、Y染色體之間,Z、W染色體之間存在大段同源區(qū)段,使得在基因組組裝到染色體水平中,性染色體XY基因型的Y染色體,ZW基因型的W染色體,只能組裝出部分片段,在進(jìn)行hic掛載時(shí),對(duì)于XY基因型或者ZW基因型的個(gè)體,性染色體只能掛載出單條X染色體或Z染色體,相應(yīng)的Y或者W染色體因存在大量的同源區(qū)域,目前的組裝技術(shù)并不能有效的進(jìn)行掛載,非同源區(qū)域會(huì)存在于未掛載的contig片段中,目前已發(fā)表的基因組未能將存在于contig片段中性染色體的非同源區(qū)域鑒定出來(lái)。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于天津諾禾致源生物信息科技有限公司,未經(jīng)天津諾禾致源生物信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110746653.4/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 減毒的人-牛嵌合呼吸道合胞病毒疫苗的生產(chǎn)
- 減毒的人-牛嵌合呼吸道合胞病毒疫苗的生產(chǎn)
- 用于對(duì)基因組進(jìn)行壓縮和解壓縮的方法和裝置
- 一種基因組重測(cè)序分析系統(tǒng)及方法
- 病原微生物基因組數(shù)據(jù)庫(kù)及其建立方法
- 宏基因組的重組裝方法、重組裝裝置及終端設(shè)備
- 用于保存和使用基因組及基因組數(shù)據(jù)的方法
- 識(shí)別胚胎中染色體異常的系統(tǒng)和方法
- 菌株基因組注釋查詢(xún)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 真菌基因組測(cè)序數(shù)據(jù)自動(dòng)分析方法及系統(tǒng)
- 一種鑒定植物遠(yuǎn)緣雜交種中外源染色體和染色體片段的方法
- 一種基于深度學(xué)習(xí)的重疊染色體分割方法及裝置
- 一種基于條帶識(shí)別的染色體排序方法
- 一種染色體切割數(shù)據(jù)的處理方法、系統(tǒng)和存儲(chǔ)介質(zhì)
- 彎曲染色體圖像拉直模型生成方法、模型的應(yīng)用、系統(tǒng)、可讀存儲(chǔ)介質(zhì)及計(jì)算機(jī)設(shè)備
- 染色體嵌合體識(shí)別判斷方法、系統(tǒng)及染色體核型分析方法
- 染色體核型圖優(yōu)選拼接方法、系統(tǒng)及染色體核型分析方法
- 自動(dòng)染色體核型分析方法、系統(tǒng)和存儲(chǔ)介質(zhì)
- 染色體異常檢測(cè)裝置
- 一種染色體核型分析中染色體分割方法





