[發(fā)明專利]一種基于位點(diǎn)映射的基因組測序數(shù)據(jù)快速注釋方法和系統(tǒng)在審
| 申請?zhí)枺?/td> | 202211165115.7 | 申請日: | 2022-09-23 |
| 公開(公告)號: | CN115455920A | 公開(公告)日: | 2022-12-09 |
| 發(fā)明(設(shè)計)人: | 方超;郎秋蕾;陳志鋒 | 申請(專利權(quán))人: | 杭州聯(lián)川生物技術(shù)股份有限公司 |
| 主分類號: | G06F40/169 | 分類號: | G06F40/169;G16B20/30;G06F16/22 |
| 代理公司: | 杭州信與義專利代理有限公司 33450 | 代理人: | 萬景旺 |
| 地址: | 310018 浙江省杭州市杭*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 映射 基因組 序數(shù) 快速 注釋 方法 系統(tǒng) | ||
1.一種基于位點(diǎn)映射的基因組測序數(shù)據(jù)快速注釋方法,其特征在于,包括以下步驟:
S1,建立索引文件:
獲得測序樣本來源物種的功能組件區(qū)的起始位點(diǎn)和終止位點(diǎn),對于每一個位點(diǎn),利用公式(1)獲得映射值:
其中,Gi代表第i個位點(diǎn)的映射值,INT表示取整運(yùn)算,Si代表第i個位點(diǎn)數(shù)值,N為根據(jù)所述來源物種染色體長度確定的值,Li代表第i個位點(diǎn)的位數(shù),若Li≤N則Li-N=1,
由此獲得所有功能組件區(qū)的起始位點(diǎn)和終止位點(diǎn)的映射值,按下列格式構(gòu)建索引文件:
Chr S E s e function
其中,Chr代表功能組件區(qū)所在染色體位置信息,S代表功能組件區(qū)起始位點(diǎn)映射值,E代表功能組件區(qū)終止位點(diǎn)映射值,s代表功能組件區(qū)起始位點(diǎn),E代表功能組件區(qū)終止位點(diǎn),function代表功能組件區(qū)的類別;
S2,獲得待注釋位點(diǎn)的映射值:其位點(diǎn)數(shù)值為Q,同樣利用公式(1)獲得待注釋位點(diǎn)的映射值G;
S3,將步驟S2獲得的映射值G在所述索引文件的第2列和第3列進(jìn)行搜索,若對于某一功能組件區(qū)j,G滿足Sj≤G≤Ej,進(jìn)一步判斷Q是否滿足sj≤Q≤ej,若滿足,則所述待注釋位點(diǎn)可注釋位于第j個功能組件區(qū)。
2.根據(jù)權(quán)利要求1所述的基因組測序數(shù)據(jù)快速注釋方法,其特征在于,所述N的確定方法具體如下:
(1)獲得每條染色體的長度CL及基因數(shù)目GN,并計算CL/GN;
(2)獲得所有染色體CL/GN的代表數(shù)MN,除以數(shù)值q,MN/q結(jié)果的整數(shù)位數(shù)即為N值,其中q=1~100。
3.根據(jù)權(quán)利要求2所述的基因組測序數(shù)據(jù)快速注釋方法,其特征在于,所述代表數(shù)選自中位數(shù)、眾數(shù)、平均數(shù)中的一種。
4.根據(jù)權(quán)利要求1所述的基因組測序數(shù)據(jù)快速注釋方法,其特征在于,所述來源物種為哺乳動物。
5.根據(jù)權(quán)利要求4所述的基因組測序數(shù)據(jù)快速注釋方法,其特征在于,所述功能組件區(qū)包括啟動子區(qū)、外顯子區(qū)、內(nèi)含子區(qū)、promoter CGIs、intragenic CGIs、3'transcriptCGIs、intergenic CGIs、重復(fù)區(qū)和miRNA區(qū)。
6.一種基于位點(diǎn)映射的基因組測序數(shù)據(jù)快速注釋系統(tǒng),其特征在于,包括以下模塊:
索引庫模塊,用于存儲索引文件,其中,所述索引文件的構(gòu)建方法如下:
獲得測序樣本來源物種的功能組件區(qū)的起始位點(diǎn)和終止位點(diǎn),對于每一個位點(diǎn),利用公式(1)獲得映射值:
其中,Gi代表第i個位點(diǎn)的映射值,Si代表第i個位點(diǎn)數(shù)值,N為根據(jù)所述來源物種染色體長度確定的值,Li代表第i個位點(diǎn)的位數(shù),若Li≤N則Li-N=1,
由此獲得所有功能組件區(qū)的起始位點(diǎn)和終止位點(diǎn)的映射值,按下列格式構(gòu)建索引文件:
Chr S E s e function
其中,Chr代表功能組件區(qū)所在染色體位置信息,S代表功能組件區(qū)起始位點(diǎn)映射值,E代表功能組件區(qū)終止位點(diǎn)映射值,s代表功能組件區(qū)起始位點(diǎn),E代表功能組件區(qū)終止位點(diǎn),function代表功能組件區(qū)的類別,
輸入模塊,用于接收測序數(shù)據(jù),獲得待注釋位點(diǎn),并利用公式(1)計算待注釋位點(diǎn)的索引值,
搜索模塊,分別與輸入模塊和索引庫模塊連接,用于將輸入模塊獲得的所述待注釋位點(diǎn)的索引值在所述索引文件的第2列和第3列進(jìn)行搜索,若對于某一功能組件區(qū)j,G滿足Sj≤G≤Ej,進(jìn)一步判斷Q是否滿足sj≤Q≤ej,若滿足,則所述待注釋位點(diǎn)可注釋位于第j個功能組件區(qū),
結(jié)果輸出模塊,用于將注釋結(jié)果輸出。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州聯(lián)川生物技術(shù)股份有限公司,未經(jīng)杭州聯(lián)川生物技術(shù)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211165115.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 序數(shù)鐘表
- 一種時序數(shù)據(jù)的處理方法及裝置
- 一種FPGA程序數(shù)據(jù)的加載方法及裝置
- 一種時序數(shù)據(jù)流分割方法、裝置及其存儲介質(zhì)
- 一種工業(yè)時序數(shù)據(jù)的訪問方法及系統(tǒng)
- 一種時序數(shù)據(jù)的平滑處理方法和裝置
- 時序數(shù)據(jù)多層次語義裁剪方法、裝置、電子設(shè)備及介質(zhì)
- 一種數(shù)據(jù)存儲方法、裝置、服務(wù)器及存儲介質(zhì)
- 一種時序數(shù)據(jù)異常檢測方法、裝置、設(shè)備及存儲介質(zhì)
- 一種基因測序數(shù)據(jù)排序方法、集成電路及排序設(shè)備





