[發明專利]生命組學序列數據的反向檢索方法有效
| 申請號: | 201710586828.3 | 申請日: | 2017-07-18 |
| 公開(公告)號: | CN107526942B | 公開(公告)日: | 2021-04-20 |
| 發明(設計)人: | 李偉忠 | 申請(專利權)人: | 中山大學 |
| 主分類號: | G16B25/00 | 分類號: | G16B25/00 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 林麗明 |
| 地址: | 510275 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 生命 序列 數據 反向 檢索 方法 | ||
本發明涉及一種生命組學序列數據的反向檢索方法,包括以下步驟:S1.對測序產生的未知序列數據進行綜合索引,構建整合化的索引數據庫群;S2.將已知或已注釋的序列數據確定為檢索所需的查詢序列集,然后利用查詢序列集在索引庫群進行檢索。
技術領域
本發明涉及生物醫學技術領域,更具體地,涉及一種生命組學序列數據的反向檢索方法。
背景技術
現有的生命組學序列數據檢索方法,如NCBI BLAST(Camacho et al 2009),FASTA(Pearson et al,1991)等,都是索引已知的或已注釋的序列數據并建成索引數據庫群,再提交未知的或未注釋的序列數據進行比對檢索,具體如圖1所示。檢索結果提供了多個匹配序列的信息。用戶可以根據最優匹配的信息來注釋被查詢的未知序列。
這種正向檢索方式關注的是被查詢的未知序列,可用于定性或預測單個序列或基因,適用于提交的數據比被檢索數據庫小很多的情況。然而,隨著當前測序技術的高速發展和測序成本的不斷下降,現在每天產生的未知序列的數量比已知或已注釋的序列數據大許多倍,達到TB量級甚至PB量級。在這種發展趨勢下,正向檢索方法的檢索效率變得越來越低。
當前以參考基因組和拼接組裝的未知基因組為基礎的正向檢索方式,在面對大數據組學數據時存在著多種限制乃至無法克服的問題,主要有兩個方面:
(1)提交海量的未知序列檢索已知或已注釋的序列數據,效率隨著提交的未知序列數量的增加而降低。原因是此類方法在對每一個未知序列檢索時,都要對被檢索的序列數據庫從頭到尾地掃描。查詢一次未知序列,檢索掃描一次;查詢n次,檢索掃描n次。可見對被檢索的序列數據庫重復掃描的次數很多,所以檢索的效率低。
(3)由于需要進行檢索的未知序列通常是基因組測序產生的數據,要經過測序數據的拼接組裝才能進入下一階段的檢索。拼接組裝的過程是將有重疊的短序列整合在一起并生成具有代表性的長序列,而找不到重疊或重疊不足的短序列就會被放棄。拼接組裝需要耗費大量的計算資源,同時必然會丟失部分數據,造成無法得到全面數據,從而不能全面準確地分析和利用基因信息。
發明內容
本發明為解決現有技術提供的正向檢索方法存在的檢索效率低及未知序列需要經過拼接組裝所造成的數據不完整的技術缺陷,提供了一種生命組學序列數據的反向檢索方法。
為實現以上發明目的,采用的技術方案是:
S1.對測序產生的未知序列數據進行綜合索引,構建整合化的索引數據庫群;
S2.將已知或已注釋的序列數據確定為檢索所需的查詢序列集,然后利用查詢序列集在索引庫群進行檢索。
與現有技術相比,本發明的有益效果是:
(1)以數量級別地提高了生命組學數據的檢索效率:反向檢索方法以已知的序列數據為查詢序列,以海量未知的序列數據作為被檢索數據庫,因而被檢索掃描的次數以數量級般地減少,從而提高了整體檢索效率。
(2)速度快、節約計算和存儲資源:反向檢索方法是基于無參考基因組的方式,而現有的正向檢索方法需要對未知序列進行拼接組裝并比對參考基因組,后者需要耗費大量的計算資源、存儲資源以及運行時間。
(3)保留全部有價值數據:在無需基因組拼接組裝和無參考基因組的情況下,反向檢索方法掃描全部的未知序列數據,因此可以利用全部的未知序列數據進行迅速的假設驗證和分析挖掘,達到全面掌控和利用數據的目的。
附圖說明
圖1為正向檢索方法的示意圖。
圖2為本發明提供的反向檢索方法的示意圖。
圖3為本發明提供的反向檢索方法的具體實施過程圖。
具體實施方式
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中山大學,未經中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710586828.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種高效率的機械零件清洗裝置
- 下一篇:閥塊油路清洗裝置
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





