[發明專利]一種濾除DNase高通量測序數據中DNA堿基傾向性偏差的方法在審

申請號：	201610865814.0	申請日：	2016-09-29
公開（公告）號：	CN106650313A	公開（公告）日：	2017-05-10
發明（設計）人：	馮偉興;賀波;宋艷霞;徐斯文;趙森;陳多嬌;劉歡	申請（專利權）人：	哈爾濱工程大學
主分類號：	G06F19/22	分類號：	G06F19/22;C12Q1/68
代理公司：	暫無信息	代理人：	暫無信息
地址：	150001 黑龍江省哈爾濱市南崗區***	國省代碼：	黑龍江;23
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種 dnase 通量序數 dna 堿基傾向性偏差方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種濾除DNase高通量測序數據中DNA堿基傾向性偏差的方法，其特征在于，包括如下步驟：

(1)DNase-Seq實驗數據酶切位點區域DNA堿基獲取

依據DNase-Seq實驗數據在基因組中的位置，提取每一個實驗數據對應酶切位點附近區域的DNA堿基；選用酶切位點附近6個位點的堿基，即以酶切位點為中心，左右各取3個堿基；

(2)DNase-Seq實驗數據DNA堿基傾向性獲取

選用酶切位點附近6個位點的堿基，每個堿基有A、C、G、T，4種取值，則6個位點堿基共有4096種堿基組合；通過統計整個DNase-Seq實驗數據酶切位點處這4096種堿基組合出現的頻次，即可獲得DNase-Seq實驗數據的DNA堿基傾向性；

(3)DNA堿基傾向性去除

設有m個蛋白結合位點，每個結合位點包含n個堿基，則：第i個結合位點的DNase檢測信號為：[S_i1,S_i2,…,S_in]；其值和為：

考慮DNase的DNA堿基傾向性，則第i個結合位點第j列的DNase檢測信號為：S_ij＝[(1-w)P_ij+wB_ij]R_i；其中，P_ij為第i個結合位點第j列處與DNA結合蛋白的蛋白結構相對應的DNase的固有切割概率，B_ij為第i個結合位點第j列處與該處DNA堿基傾向性相對應的DNase的切割概率；P_ij是穩定的，可用于DNA蛋白結合位點識別，而B_ij是不穩定的，應予以濾除；

具體濾除方法如下：

其中，S_ij,R_i可從實驗數據中直接得到；B_ij則根據前一步驟獲取的DNase-Seq實驗數據的DNA堿基傾向性得到；w為權值，取值范圍為[0,1]之間，需要進一步確定；

對于m個蛋白結合位點，當權值w取不同值時，會得到不同的[P_i1,P_i2,…,P_in]，1≤i≤m；設則當m個[P_i1,P_i2,…,P_in]與[P₁,P₂,…,P_n]之間的m個相關性值的中位值最大時，此時的w值為最優值。