[發(fā)明專利]一種對組裝序列排序的方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201910270433.1 | 申請日: | 2019-04-04 |
| 公開(公告)號: | CN110020726B | 公開(公告)日: | 2023-08-18 |
| 發(fā)明(設(shè)計(jì))人: | 李凈凈;易嘉成;胡江;汪德鵬 | 申請(專利權(quán))人: | 武漢希望組生物科技有限公司 |
| 主分類號: | G06N3/123 | 分類號: | G06N3/123;G06F18/23 |
| 代理公司: | 北京集佳知識產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 王寶筠 |
| 地址: | 430000 湖北省武漢市東湖新技術(shù)開*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 組裝 序列 排序 方法 系統(tǒng) | ||
本發(fā)明公開了一種對組裝序列排序的方法及系統(tǒng),該方法包括:對DNA測序片段進(jìn)行組裝后的目標(biāo)重疊群進(jìn)行切分處理,獲得目標(biāo)數(shù)據(jù);對目標(biāo)數(shù)據(jù)進(jìn)行定向和排序處理,獲得若干個(gè)排列結(jié)果;計(jì)算每種排列結(jié)果的交聯(lián)信號值的離散程度,并計(jì)算獲得目標(biāo)數(shù)據(jù)中的切分序列的掛載率,切分序列表征對重疊群按照預(yù)設(shè)切分長度進(jìn)行切分后的序列;依據(jù)離散程度和掛載率,確定初始排列結(jié)果;將初始排列結(jié)果進(jìn)行互作熱圖驗(yàn)證,若滿足預(yù)設(shè)驗(yàn)證條件,則將初始排列結(jié)果確定為目標(biāo)排列結(jié)果,若不滿足,則對初始排列結(jié)果進(jìn)行調(diào)整,獲得目標(biāo)排列結(jié)果。通過本發(fā)明解決了現(xiàn)有技術(shù)排序不準(zhǔn)確的問題及可以實(shí)現(xiàn)對有明顯組裝錯誤的重疊組進(jìn)行糾錯。
本申請要求于2019年3月4日提交中國專利局、申請?zhí)枮?01910160446.3、發(fā)明名稱為“一種對組裝序列排序的方法及系統(tǒng)”的中國專利申請的優(yōu)先權(quán),其全部內(nèi)容通過引用結(jié)合在本申請中。
技術(shù)領(lǐng)域
本發(fā)明涉及生物信息技術(shù)領(lǐng)域,特別是涉及一種對組裝序列排序的方法及系統(tǒng)。
背景技術(shù)
DNA是生物體遺傳信息的主要載體,高質(zhì)量的基因組參考序列是現(xiàn)代遺傳學(xué)、分子生物學(xué)等現(xiàn)代生物科學(xué)的重要基礎(chǔ)。因此,基因測序?qū)μ剿髋c認(rèn)識生命本質(zhì)等基礎(chǔ)生物科學(xué)研究、人類重要遺傳病防治及動植物遺傳育種等應(yīng)用性研究均具有十分重要的意義。真實(shí)狀態(tài)中的細(xì)胞核是一個(gè)狹小的三維立體空間,直鏈分子結(jié)構(gòu)的DNA會以復(fù)雜的卷曲方式位于細(xì)胞核內(nèi),原一維DNA序列被賦予三維空間構(gòu)象,并導(dǎo)致了大量復(fù)雜的基因控制作用方式,因此,簡單的一維DNA序列信息由于不能提供真實(shí)DNA空間分布相關(guān)的信息,無法滿足現(xiàn)有的分析需求。
可結(jié)合染色質(zhì)三維構(gòu)象技術(shù)、高通量測序技術(shù)、生物信息分析方法,研究全基因組范圍內(nèi)整個(gè)染色質(zhì)DNA在空間位置上的關(guān)系,獲得高分辨率的染色質(zhì)三維結(jié)構(gòu)信息。基于染色質(zhì)三維構(gòu)象測序數(shù)據(jù)中染色質(zhì)片段間的交互強(qiáng)度呈現(xiàn)出隨距離衰減的規(guī)律,染色質(zhì)三維構(gòu)象測序序列可以用于基因組組裝,即將雜亂的基因序列組裝到染色體水平。
在現(xiàn)有技術(shù)中通常是通過生物信息學(xué)手段利用染色質(zhì)三維構(gòu)象測序數(shù)據(jù),實(shí)現(xiàn)基因組組裝目的的。在此過程中需要通過聚類、排序、定向等步驟,然后,通過生成相應(yīng)的基因交互組熱圖來評估基因組裝結(jié)果,若組裝結(jié)果好的染色體做出的熱圖,其交聯(lián)信號應(yīng)集中在熱圖的對角線區(qū)域,但是,在實(shí)際生成的熱圖在非對角線區(qū)域顯示強(qiáng)交互信號,而造成這種現(xiàn)象的主要原因是排序不準(zhǔn)確的問題。
發(fā)明內(nèi)容
針對于上述問題,本發(fā)明提供一種組裝序列排序方法及系統(tǒng),解決了現(xiàn)有技術(shù)中數(shù)據(jù)排序不準(zhǔn)確的問題。
為了實(shí)現(xiàn)上述目的,本發(fā)明提供了如下技術(shù)方案:
一種對組裝序列排序的方法,該方法包括:
對DNA測序片段進(jìn)行組裝后的目標(biāo)重疊群進(jìn)行切分處理,獲得目標(biāo)數(shù)據(jù);
對所述目標(biāo)數(shù)據(jù)進(jìn)行定向和排序處理,獲得若干個(gè)排列結(jié)果;
計(jì)算每種排列結(jié)果的交聯(lián)信號強(qiáng)度的離散程度,并計(jì)算獲得所述目標(biāo)數(shù)據(jù)中的切分序列的掛載率,所述切分序列表征對所述目標(biāo)重疊群按照預(yù)設(shè)切分長度進(jìn)行切分后的序列;
依據(jù)所述離散程度和所述掛載率,確定初始排列結(jié)果;
將所述初始排列結(jié)果進(jìn)行互作熱圖驗(yàn)證,若滿足預(yù)設(shè)驗(yàn)證條件,則將所述初始排列結(jié)果確定為目標(biāo)排列,若不滿足,則對所述初始排列結(jié)果進(jìn)行調(diào)整,獲得目標(biāo)排列。
可選地,所述對DNA測序片段進(jìn)行組裝后的目標(biāo)重疊群進(jìn)行切分處理,獲得目標(biāo)數(shù)據(jù),包括:
將染色質(zhì)三維構(gòu)象測序序列比對到所述目標(biāo)重疊群上,根據(jù)所述目標(biāo)重疊群之間的交聯(lián)信號強(qiáng)度進(jìn)行聚類處理,獲得若干個(gè)聚類組;
對每個(gè)所述聚類組中的目標(biāo)重疊群,按照預(yù)設(shè)切分長度進(jìn)行切分處理,獲得切分序列。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于武漢希望組生物科技有限公司,未經(jīng)武漢希望組生物科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910270433.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





