[發(fā)明專利]應(yīng)用于組織樣本中染色體上轉(zhuǎn)錄因子結(jié)合位點(diǎn)的檢測(cè)方法在審

申請(qǐng)?zhí)枺?/td>	201711464358.X	申請(qǐng)日：	2017-12-28
公開（公告）號(hào)：	CN108052797A	公開（公告）日：	2018-05-18
發(fā)明（設(shè)計(jì)）人：	李旦	申請(qǐng)（專利權(quán)）人：	上海嘉因生物科技有限公司
主分類號(hào)：	G06F19/20	分類號(hào)：	G06F19/20
代理公司：	暫無信息	代理人：	暫無信息
地址：	200000 上海市楊***	國(guó)省代碼：	上海;31
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	應(yīng)用于組織樣本染色體轉(zhuǎn)錄因子結(jié)合檢測(cè) 方法
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫(kù) 專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明涉及應(yīng)用于組織樣本中染色體上轉(zhuǎn)錄因子結(jié)合位點(diǎn)的檢測(cè)方法，包括數(shù)據(jù)預(yù)處理、分割DNA短序列、均值檢測(cè)和概率檢測(cè)。與己有的檢測(cè)算法相比，提高了ChIP?seq數(shù)據(jù)的轉(zhuǎn)錄因子結(jié)合位點(diǎn)識(shí)別算法的性能，算法消耗的時(shí)間更少，并能準(zhǔn)確的識(shí)別已有的和新的轉(zhuǎn)錄因子結(jié)合位點(diǎn)，為轉(zhuǎn)錄因子的研究提供了新的技術(shù)手段和重要工具。

技術(shù)領(lǐng)域

本發(fā)明屬于免疫檢測(cè)技術(shù)領(lǐng)域，尤其涉及應(yīng)用于組織樣本中染色體上轉(zhuǎn)錄因子結(jié)合位點(diǎn)的檢測(cè)方法。

背景技術(shù)

近些年來，“大數(shù)據(jù)”這個(gè)詞匯已經(jīng)成為當(dāng)下最常見的詞匯之一，而自從上世紀(jì)90年代開始，生物信息學(xué)經(jīng)過多年的發(fā)展，已經(jīng)從最初的DNA序列分析和蛋白質(zhì)序列分析，擴(kuò)展到生物學(xué)的各個(gè)領(lǐng)域，使得生物學(xué)數(shù)據(jù)的增長(zhǎng)驚人，生物學(xué)現(xiàn)在也已經(jīng)進(jìn)入了“大數(shù)據(jù)”時(shí)代。

轉(zhuǎn)錄是基因表達(dá)的第一階段，也是基因調(diào)節(jié)的主要階段，通過轉(zhuǎn)錄因子與特異的序列結(jié)合，對(duì)基因的表達(dá)起抑制或增強(qiáng)的作用。識(shí)別序列的中的這些結(jié)合區(qū)域，即轉(zhuǎn)錄因子結(jié)合位點(diǎn)識(shí)別，對(duì)了解基因的轉(zhuǎn)錄活性及理解基因表達(dá)有著重要意義，是現(xiàn)今生物信息學(xué)中最為廣泛研究的問題之一。

轉(zhuǎn)錄因子結(jié)合位點(diǎn)識(shí)別問題的難點(diǎn)在于，與大量長(zhǎng)度幾百或上千堿基的背景噪聲序列相比，長(zhǎng)度為十幾或幾十的模體信號(hào)相對(duì)較短，并且同一轉(zhuǎn)錄因子的模體實(shí)例還有可能部分發(fā)生變異。同時(shí)，隨著序列長(zhǎng)度和數(shù)量的增加，解空間大小也會(huì)飛速巨增，計(jì)算開銷往往不切實(shí)際。此外，識(shí)別結(jié)合區(qū)域中的多個(gè)轉(zhuǎn)錄因子結(jié)合位點(diǎn)、尋找特定的共調(diào)控轉(zhuǎn)錄因子結(jié)合位點(diǎn)組合以及在全基因組范圍內(nèi)尋找結(jié)合位點(diǎn)，也是此問題所面臨的巨大挑戰(zhàn)。

發(fā)明內(nèi)容

有鑒于此，本發(fā)明提供一種解決或部分解決上述問題的應(yīng)用于組織樣本中染色體上轉(zhuǎn)錄因子結(jié)合位點(diǎn)的檢測(cè)方法。

為達(dá)到上述技術(shù)方案的效果，本發(fā)明的技術(shù)方案為：應(yīng)用于組織樣本中染色體上轉(zhuǎn)錄因子結(jié)合位點(diǎn)的檢測(cè)方法，包括以下步驟：

步驟一：數(shù)據(jù)預(yù)處理：

首先，讀取樣本的ChIP-seq數(shù)據(jù)，并將其比對(duì)到參考基因組上，尋找出轉(zhuǎn)錄因子結(jié)合位點(diǎn)富集的特征峰和峰頂點(diǎn)的位置信息；然后，以峰頂點(diǎn)為中心分別向左右兩側(cè)延展500bp，延伸后的數(shù)據(jù)中，每一個(gè)DNA序列的中心均為峰頂點(diǎn)，且DNA序列長(zhǎng)度均為1002bp；最后，將DNA序列提取出來并去掉其中重復(fù)的序列得到DNA短序列；

步驟二：分割DNA短序列：

分別將DNA短序列中前N-4個(gè)堿基作為頭堿基，將頭堿基及其之后連續(xù)的四個(gè)堿基劃分為一個(gè)子序列，并將頭堿基在DNA短序列的次序作為子序列的編號(hào)，子序列的編號(hào)為正整數(shù)；N是DNA短序列中的堿基數(shù)量，N為正整數(shù)；子序列中包括五個(gè)堿基，頭堿基是子序列中的第一個(gè)堿基，DNA短序列可以劃分出N-4個(gè)子序列；

步驟三：均值檢測(cè)：

分別對(duì)四種堿基包括A(腺嘌呤)、T(胸腺嘧啶)、C(胞嘧啶)、G(鳥嘌呤)計(jì)算當(dāng)前堿基均值：

(1)正在計(jì)算的堿基為當(dāng)前堿基，按照子序列的編號(hào)，依次統(tǒng)計(jì)當(dāng)前堿基在子序列中出現(xiàn)的次數(shù)得到均值向量(y1,y2,…,yN-4)，其中，y是當(dāng)前堿基在子序列中出現(xiàn)的次數(shù)，y1是當(dāng)前堿基在編號(hào)為1的子序列中出現(xiàn)的次數(shù)，y2是當(dāng)前堿基在編號(hào)為2的子序列中出現(xiàn)的次數(shù)，yN-4是當(dāng)前堿基在編號(hào)為N-4的子序列中出現(xiàn)的次數(shù)；

(2)統(tǒng)計(jì)出均值向量中取值大于3的元素的個(gè)數(shù)即為當(dāng)前堿基均值；

對(duì)四種堿基計(jì)算出的當(dāng)前堿基均值進(jìn)行均值檢測(cè)：如果四個(gè)當(dāng)前堿基均值都在0.8N～1.2N的范圍內(nèi)，則進(jìn)行步驟四；否則檢測(cè)結(jié)束，DNA短序列不是轉(zhuǎn)錄因子結(jié)合位點(diǎn)；

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海嘉因生物科技有限公司，未經(jīng)上海嘉因生物科技有限公司許可，擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201711464358.X/2.html，轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。

上一篇：一種硅鋁合金、硅鋁鋇合金中鋁含量的測(cè)定方法
下一篇：基于人工智能的搜索方法、裝置和電子設(shè)備

同類專利

專利分類

G 物理

G06 計(jì)算；推算；計(jì)數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F19-00 專門適用于特定應(yīng)用的數(shù)字計(jì)算或數(shù)據(jù)處理的設(shè)備或方法
G06F19-10 .生物信息學(xué)，即計(jì)算分子生物學(xué)中的遺傳或蛋白質(zhì)相關(guān)的數(shù)據(jù)處理方法或系統(tǒng)
G06F19-12 ..用于系統(tǒng)生物學(xué)的建模或仿真，例如：概率模型或動(dòng)態(tài)模型，遺傳基因管理網(wǎng)絡(luò)，蛋白質(zhì)交互作用網(wǎng)絡(luò)或新陳代謝作用網(wǎng)絡(luò)
G06F19-14 ..用于發(fā)展或進(jìn)化的，例如：進(jìn)化的保存區(qū)域決定或進(jìn)化樹結(jié)構(gòu)
G06F19-16 ..用于分子結(jié)構(gòu)的，例如：結(jié)構(gòu)排序，結(jié)構(gòu)或功能關(guān)系，蛋白質(zhì)折疊，結(jié)構(gòu)域拓?fù)洌媒Y(jié)構(gòu)數(shù)據(jù)的藥靶，涉及二維或三維結(jié)構(gòu)的
G06F19-18 ..用于功能性基因組學(xué)或蛋白質(zhì)組學(xué)的，例如：基因型–表型關(guān)聯(lián)，不均衡連接，種群遺傳學(xué)，結(jié)合位置鑒定，變異發(fā)生，基因型或染色體組的注釋，蛋白質(zhì)相互作用或蛋白質(zhì)核酸的相互作用

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】