[發明專利]一種基因轉錄變異幾率及變異方向的算法在審
| 申請號: | 201810469702.2 | 申請日: | 2018-05-16 |
| 公開(公告)號: | CN108710784A | 公開(公告)日: | 2018-10-26 |
| 發明(設計)人: | 邵莉;佟艷輝;李鵬 | 申請(專利權)人: | 中科政興(上海)醫療科技有限公司 |
| 主分類號: | G06F19/28 | 分類號: | G06F19/28;G06F19/12;G06F19/18 |
| 代理公司: | 北京華智則銘知識產權代理有限公司 11573 | 代理人: | 陳向敏 |
| 地址: | 201100 上海市閔*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 參考序列 哈希表 基因轉錄 比對 構建 滑窗 算法 匹配 集合 二進制壓縮 準確性要求 檢測結果 內存占用 映射過程 最佳匹配 短序列 高通量 映射 信息量 內存 檢測 創建 挑戰 | ||
1.一種基因轉錄變異幾率及變異方向的算法,其特征在于,操作步驟如下:
一.哈希表創建:
哈希表是根據關鍵碼值而直接進行訪問的數據結構,它通過把關鍵碼值映射到表中一個位置來訪問記錄,以加快查找的速度,這個映射函數叫做散列函數,存放記錄的數組叫做散列表;
二.模擬數據:
為了詳細的研究每個軟件Indel檢測結果的正確率、回收率以及基因組的序列特征對檢測到結果的影響,需要已知所有變異的具體信息,包括變異的幾率、方向以及所處基因組區域的特征,為此本發明利用計算機模擬技術將已知變異加入到參考基因組中生成新基因組序列,再利用模擬測序技術生成測序數據;
三.read定位:
由于read相對于參考序列來說很短,直接將read比對到參考序列上時,會遇到過早定位到不正確的位點的情況,因此在進行比對之前,我們需要先對read進行定位,為后續的比對選出幾個候選的比對位點,為read定位就需要用到構建好的哈希表,在read上選出長度為seed_length的一段連續子序列(seed),先對子序列進行定位得到候選位置,read的長度很短,更不用說作為read的子序列的seed,因此一個seed在定位時往往會定位到參考序列上的多個位置上,造成定位結果不準確,并且本發明十對的是InDel數據,小的InDel在read上的分布是隨機的,有時會出現seed覆蓋了InDel的位置,而使得seed錯誤地定位到參考序列上的某個位點,為了提升后續比對中檢測InDel的正確性,減少InDel檢測結果的假陰性,本發明提出對read使用滑窗方法選出多個子序列分別比對到參考序列上得到各自的候選位點;
四.短序列的比對算:
針對高通量測序的數據特點,研究人員開發了一些基于短序列的比對算法,這些算法主要引入了Burrows-Wheeler轉換法(Burrows-Wheeler Transform)或空位種子索引法(Spaced-Seed Indexing)來實現;
五.結果評估:
目前很多生物信息學的重要刊物都要求通過真實數據實驗和模擬數據實驗來對InDel檢測方法進行評價,其中對真實數據的InDel檢測的基本流程包括:
(1)對個體基因組進行測序得到相應的測序片段;
(2)將前一步驟中生成的測序片段比對到參考基因組上;
(3)在比對結果中尋找異常并進行分析判斷InDel;
六.最優F值
選擇Inde1檢測軟件,模擬染色體變異和序列,利用工具進行Inde1檢測,計算每兩個軟件的聯合的F值,通過最優的F值建立一個最優選擇的規則;
七.深入學習與探討
最優F值的方法是基于軟件的一致結果,因而會舍棄僅由單個軟件檢測到的Inde1,而從模擬數據可知僅由單個軟件檢測的Inde1接近占整體數量的20%,全部舍棄嚴重影響回收率,為了能夠更加全面的利用所有軟件的結果從而獲得更高的回收率兼顧平衡性,本發明設計了基于深度學習(Deep Learning)的方法篩選所有軟件的檢測結果,我們以所有原始數據為訓練集,以檢測Inde1的所用軟件,Inde1的類型,Inde1所處重復序列類型,支持Inde1檢測結果的讀段數量為訓練特征,準確率和召回率為訓練目標,利用訓練集我們可以訓練得到一個使回收率和召回率盡量高的模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中科政興(上海)醫療科技有限公司,未經中科政興(上海)醫療科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810469702.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于結點關系對的復合功能模塊識別方法及系統
- 下一篇:資源分發方法和裝置
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





