[發明專利]一種濾除DNase高通量測序數據中DNA堿基傾向性偏差的方法在審
| 申請號: | 201610865814.0 | 申請日: | 2016-09-29 |
| 公開(公告)號: | CN106650313A | 公開(公告)日: | 2017-05-10 |
| 發明(設計)人: | 馮偉興;賀波;宋艷霞;徐斯文;趙森;陳多嬌;劉歡 | 申請(專利權)人: | 哈爾濱工程大學 |
| 主分類號: | G06F19/22 | 分類號: | G06F19/22;C12Q1/68 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 150001 黑龍江省哈爾濱市南崗區*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 dnase 通量 序數 dna 堿基 傾向性 偏差 方法 | ||
1.一種濾除DNase高通量測序數據中DNA堿基傾向性偏差的方法,其特征在于,包括如下步驟:
(1)DNase-Seq實驗數據酶切位點區域DNA堿基獲取
依據DNase-Seq實驗數據在基因組中的位置,提取每一個實驗數據對應酶切位點附近區域的DNA堿基;選用酶切位點附近6個位點的堿基,即以酶切位點為中心,左右各取3個堿基;
(2)DNase-Seq實驗數據DNA堿基傾向性獲取
選用酶切位點附近6個位點的堿基,每個堿基有A、C、G、T,4種取值,則6個位點堿基共有4096種堿基組合;通過統計整個DNase-Seq實驗數據酶切位點處這4096種堿基組合出現的頻次,即可獲得DNase-Seq實驗數據的DNA堿基傾向性;
(3)DNA堿基傾向性去除
設有m個蛋白結合位點,每個結合位點包含n個堿基,則:第i個結合位點的DNase檢測信號為:[Si1,Si2,…,Sin];其值和為:
考慮DNase的DNA堿基傾向性,則第i個結合位點第j列的DNase檢測信號為:Sij=[(1-w)Pij+wBij]Ri;其中,Pij為第i個結合位點第j列處與DNA結合蛋白的蛋白結構相對應的DNase的固有切割概率,Bij為第i個結合位點第j列處與該處DNA堿基傾向性相對應的DNase的切割概率;Pij是穩定的,可用于DNA蛋白結合位點識別,而Bij是不穩定的,應予以濾除;
具體濾除方法如下:
其中,Sij,Ri可從實驗數據中直接得到;Bij則根據前一步驟獲取的DNase-Seq實驗數據的DNA堿基傾向性得到;w為權值,取值范圍為[0,1]之間,需要進一步確定;
對于m個蛋白結合位點,當權值w取不同值時,會得到不同的[Pi1,Pi2,…,Pin],1≤i≤m;設則當m個[Pi1,Pi2,…,Pin]與[P1,P2,…,Pn]之間的m個相關性值的中位值最大時,此時的w值為最優值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工程大學,未經哈爾濱工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610865814.0/1.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





