[發明專利]比對方法、裝置及系統有效
| 申請號: | 201710652379.8 | 申請日: | 2017-08-02 |
| 公開(公告)號: | CN107403075B | 公開(公告)日: | 2021-04-27 |
| 發明(設計)人: | 徐偉彬;金歡;顏欽;姜澤飛;周志良 | 申請(專利權)人: | 深圳市真邁生物科技有限公司 |
| 主分類號: | G16B25/00 | 分類號: | G16B25/00;G16B40/00 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 518000 廣東省深圳市羅湖區清水*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 方法 裝置 系統 | ||
1.一種比對方法,其特征在于,包括:
將每條讀段轉化成與該讀段對應的一組短片段,獲得多組短片段;
確定所述短片段在參考庫的對應位置,以獲得第一定位結果,
所述參考庫為基于參考序列構建的哈希表,所述參考庫包含多個條目,所述參考庫的一個條目對應一條種子序列,所述種子序列能夠與所述參考序列上的至少一段序列匹配,
所述參考庫的相鄰兩個條目對應的兩條種子序列在所述參考序列上的距離小于所述短片段的長度;
去除所述第一定位結果中定位到所述參考庫相鄰條目中的任一條目上的短片段,獲得第二定位結果;
基于所述第二定位結果中來自相同讀段的短片段進行延伸,以獲得所述讀段的比對結果。
2.權利要求1的方法,其特征在于,所述參考庫的構建包括:
依據所述參考序列的堿基總數totalBase,確定種子序列的長度L,L=μ*log(totalBase),
基于所述種子序列的長度,生成所有可能的種子序列,獲得種子序列集;
確定所述種子序列集中能夠匹配到所述參考序列的種子序列以及該種子序列的匹配位置,以獲得所述參考庫。
3.權利要求2的方法,其特征在于,所述確定種子序列集中能夠匹配到參考序列的種子序列以及該種子序列的匹配位置,包括:
利用大小為L的窗口對所述參考序列進行滑窗,將所述種子序列集中的種子序列與滑窗得的窗口序列進行匹配,以確定所述種子序列集中能夠匹配到所述參考序列的種子序列以及該種子序列的匹配位置,進行所述匹配的容錯率為ε1。
4.權利要求3的方法,其特征在于,進行所述滑窗的步長依據L和ε1來確定。
5.權利要求3的方法,其特征在于,進行所述滑窗的步長不小于L*ε1。
6.權利要求3的方法,其特征在于,所述參考庫的相鄰兩個條目之間的距離大于或者等于所述滑窗的步長。
7.權利要求1-6任一方法,其特征在于,所述將每條讀段轉化成與該讀段對應的一組短片段,獲得多組短片段,包括:
利用大小為L的窗口對所述讀段進行滑窗,以獲得與該讀段對應的一組短片段,進行所述滑窗的步長為1bp。
8.權利要求1-6任一方法,其特征在于,所述確定短片段在參考庫的對應位置,以獲得第一定位結果,包括:
將所述短片段與所述參考庫的條目對應的種子序列進行匹配,以確定所述短片段在所述參考庫的位置,進行所述匹配的容錯率為ε2。
9.權利要求1-6任一方法,其特征在于,在獲得所述第二定位結果之后,
去除連通長度小于預定閾值的短片段,以去除后的結果替代所述第二定位結果,所述連通長度為所述第二定位結果中的來自相同讀段且定位到所述參考庫不同條目的短片段映射到參考序列的總長度。
10.權利要求1-6任一方法,其特征在于,在獲得所述第二定位結果之后,
依據所述第二定位結果中來自相同讀段的短片段的定位結果,對該讀段的定位結果進行評判,去除評判結果不符合預定要求的讀段。
11.權利要求10的方法,其特征在于,在獲得所述第二定位結果之后,
依據所述第二定位結果中來自相同讀段的短片段的定位結果,對該讀段的定位結果進行計分,去除得分不大于第一預設值的讀段。
12.權利要求10的方法,其特征在于,在獲得所述第二定位結果之后,
依據所述第二定位結果中來自相同讀段的短片段的定位結果,對該讀段的定位結果進行計分,去除得分不小于第二預設值的讀段。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市真邁生物科技有限公司,未經深圳市真邁生物科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710652379.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于機器學習的2型糖尿病預測預警方法
- 下一篇:一種計算機信息安全系統





