[發明專利]比對方法、裝置及系統有效
| 申請號: | 201710652379.8 | 申請日: | 2017-08-02 |
| 公開(公告)號: | CN107403075B | 公開(公告)日: | 2021-04-27 |
| 發明(設計)人: | 徐偉彬;金歡;顏欽;姜澤飛;周志良 | 申請(專利權)人: | 深圳市真邁生物科技有限公司 |
| 主分類號: | G16B25/00 | 分類號: | G16B25/00;G16B40/00 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 518000 廣東省深圳市羅湖區清水*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 方法 裝置 系統 | ||
本發明公開了一種比對方法、裝置及系統,比對方法包括:將每條讀段轉化成與該讀段對應的一組短片段,獲得多組短片段;確定短片段在參考庫的對應位置,以獲得第一定位結果,所稱的參考庫為基于參考序列構建的哈希表,參考庫包含多個條目,參考庫的一個條目對應一條種子序列,種子序列能夠與參考序列上的至少一段序列匹配,參考庫的相鄰兩個條目對應的兩條種子序列在參考序列上的距離小于短片段的長度;去除第一定位結果中定位到參考庫相鄰條目中的任一條目上的短片段,獲得第二定位結果;基于第二定位結果中來自相同讀段的短片段的公共部分進行延伸,以獲得讀段的比對結果。該比對方法能夠對測序數據進行高效準確的處理及定位。
技術領域
本發明涉及數據處理領域,具體地,涉及一種序列比對方法、一種序列比對裝置及一種序列比對系統。
背景技術
在生物數據處理和分析中,比對作為生物信息分析的基礎環節,對時間和效率提出了一定的要求,不同的比對模型和算法具有不同的敏感性和準確性。
目前主流的比對軟件如bwa、bowtie、soap主要是針對二代測序平臺產生的序列而開發的,而如blast和mapq等軟件,主要是針對長序列而開發的。
對特定類型數據的敏感性、比對時間和/或比對效率,現有的比對方法有待提高。
發明內容
本發明實施方式旨在至少解決現有技術中存在的技術問題之一或者至少提供一種商業手段。
依據本發明的一方面提供的一種比對方法,包括如下步驟:將每條讀段轉化成與該讀段對應的一組短片段,獲得多組短片段;確定短片段在參考庫的對應位置,以獲得第一定位結果,所稱的參考庫為基于參考序列構建的哈希表,參考庫包含多個條目,參考庫的一個條目對應一條種子序列,所稱的種子序列能夠與參考序列上的至少一段序列匹配,參考庫的相鄰兩個條目對應的兩條種子序列在參考序列上的距離小于短片段的長度;去除第一定位結果中定位到參考庫相鄰條目中的任一條目上的短片段,獲得第二定位結果;基于所述第二定位結果中來自相同讀段的短片段進行延伸,以獲得讀段的比對結果。
依據本發明的另一方面提供的一種比對裝置,用以實施上述比對方法的全部或部分步驟,該裝置包括:轉化模塊,用于將每條讀段轉化成與該讀段對應的一組短片段,獲得多組短片段;查找模塊,用于確定短片段在參考庫的對應位置,以獲得第一定位結果,所稱的參考庫為基于參考序列構建的哈希表,參考庫包含多個條目,參考庫的一個條目對應一條種子序列,所稱的種子序列能夠與參考序列上的至少一段序列匹配,參考庫的相鄰兩個條目對應的兩條種子序列在參考序列上的距離小于短片段的長度;剔除模塊,用于去除第一定位結果中定位到參考庫相鄰條目中的任一條目上的短片段,獲得第二定位結果;生長模塊,用于基于所述第二定位結果中來自相同讀段的短片段進行延伸,以獲得讀段的比對結果。
依據本發明的又一方面提供的一種計算機可讀介質,用于存儲/承載計算機可執行程序,本領域普通技術人員可以理解,在執行該程序時,通過指令相關硬件可完成上述比對方法的全部或部分步驟。所稱介質可以包括:只讀存儲器、隨機存儲器、磁盤或光盤等。
依據本發明的再一方面提供的一種比對系統,包括:輸入裝置,用于輸入數據;輸出裝置,用于輸出數據;處理器,用于執行計算機可執行程序,執行所述計算機可執行程序包括完成上述比對方法;存儲裝置,用于存儲數據,其中包括所述計算機可執行程序。
本發明的比對方法、裝置和/或系統通過將讀段轉化成短片段以及將序列信息轉化成位置信息,具有較高的靈敏性和準確性,能夠高效準確地處理各種測序平臺的下機數據,包括長讀長和短讀長的下機數據。特別是對于包含未能識別的堿基的讀段,即包含gap的讀段的高效精確的定位,尤其適用。
本發明的附加方面和優點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發明的實踐了解到。
附圖說明
本發明的上述和/或附加的方面和優點從結合下面附圖對實施例的描述中將變得明顯和容易理解,其中:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市真邁生物科技有限公司,未經深圳市真邁生物科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710652379.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于機器學習的2型糖尿病預測預警方法
- 下一篇:一種計算機信息安全系統





