[發(fā)明專利]應(yīng)用于組織樣本中染色體上轉(zhuǎn)錄因子結(jié)合位點(diǎn)的檢測(cè)方法在審
| 申請(qǐng)?zhí)枺?/td> | 201711464358.X | 申請(qǐng)日: | 2017-12-28 |
| 公開(公告)號(hào): | CN108052797A | 公開(公告)日: | 2018-05-18 |
| 發(fā)明(設(shè)計(jì))人: | 李旦 | 申請(qǐng)(專利權(quán))人: | 上海嘉因生物科技有限公司 |
| 主分類號(hào): | G06F19/20 | 分類號(hào): | G06F19/20 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 200000 上海市楊*** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 應(yīng)用于 組織 樣本 染色體 轉(zhuǎn)錄 因子 結(jié)合 檢測(cè) 方法 | ||
本發(fā)明涉及應(yīng)用于組織樣本中染色體上轉(zhuǎn)錄因子結(jié)合位點(diǎn)的檢測(cè)方法,包括數(shù)據(jù)預(yù)處理、分割DNA短序列、均值檢測(cè)和概率檢測(cè)。與己有的檢測(cè)算法相比,提高了ChIP?seq數(shù)據(jù)的轉(zhuǎn)錄因子結(jié)合位點(diǎn)識(shí)別算法的性能,算法消耗的時(shí)間更少,并能準(zhǔn)確的識(shí)別已有的和新的轉(zhuǎn)錄因子結(jié)合位點(diǎn),為轉(zhuǎn)錄因子的研究提供了新的技術(shù)手段和重要工具。
技術(shù)領(lǐng)域
本發(fā)明屬于免疫檢測(cè)技術(shù)領(lǐng)域,尤其涉及應(yīng)用于組織樣本中染色體上轉(zhuǎn)錄因子結(jié)合位點(diǎn)的檢測(cè)方法。
背景技術(shù)
近些年來,“大數(shù)據(jù)”這個(gè)詞匯已經(jīng)成為當(dāng)下最常見的詞匯之一,而自從上世紀(jì)90年代開始,生物信息學(xué)經(jīng)過多年的發(fā)展,已經(jīng)從最初的DNA序列分析和蛋白質(zhì)序列分析,擴(kuò)展到生物學(xué)的各個(gè)領(lǐng)域,使得生物學(xué)數(shù)據(jù)的增長(zhǎng)驚人,生物學(xué)現(xiàn)在也已經(jīng)進(jìn)入了“大數(shù)據(jù)”時(shí)代。
轉(zhuǎn)錄是基因表達(dá)的第一階段,也是基因調(diào)節(jié)的主要階段,通過轉(zhuǎn)錄因子與特異的序列結(jié)合,對(duì)基因的表達(dá)起抑制或增強(qiáng)的作用。識(shí)別序列的中的這些結(jié)合區(qū)域,即轉(zhuǎn)錄因子結(jié)合位點(diǎn)識(shí)別,對(duì)了解基因的轉(zhuǎn)錄活性及理解基因表達(dá)有著重要意義,是現(xiàn)今生物信息學(xué)中最為廣泛研究的問題之一。
轉(zhuǎn)錄因子結(jié)合位點(diǎn)識(shí)別問題的難點(diǎn)在于,與大量長(zhǎng)度幾百或上千堿基的背景噪聲序列相比,長(zhǎng)度為十幾或幾十的模體信號(hào)相對(duì)較短,并且同一轉(zhuǎn)錄因子的模體實(shí)例還有可能部分發(fā)生變異。同時(shí),隨著序列長(zhǎng)度和數(shù)量的增加,解空間大小也會(huì)飛速巨增,計(jì)算開銷往往不切實(shí)際。此外,識(shí)別結(jié)合區(qū)域中的多個(gè)轉(zhuǎn)錄因子結(jié)合位點(diǎn)、尋找特定的共調(diào)控轉(zhuǎn)錄因子結(jié)合位點(diǎn)組合以及在全基因組范圍內(nèi)尋找結(jié)合位點(diǎn),也是此問題所面臨的巨大挑戰(zhàn)。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明提供一種解決或部分解決上述問題的應(yīng)用于組織樣本中染色體上轉(zhuǎn)錄因子結(jié)合位點(diǎn)的檢測(cè)方法。
為達(dá)到上述技術(shù)方案的效果,本發(fā)明的技術(shù)方案為:應(yīng)用于組織樣本中染色體上轉(zhuǎn)錄因子結(jié)合位點(diǎn)的檢測(cè)方法,包括以下步驟:
步驟一:數(shù)據(jù)預(yù)處理:
首先,讀取樣本的ChIP-seq數(shù)據(jù),并將其比對(duì)到參考基因組上,尋找出轉(zhuǎn)錄因子結(jié)合位點(diǎn)富集的特征峰和峰頂點(diǎn)的位置信息;然后,以峰頂點(diǎn)為中心分別向左右兩側(cè)延展500bp,延伸后的數(shù)據(jù)中,每一個(gè)DNA序列的中心均為峰頂點(diǎn),且DNA序列長(zhǎng)度均為1002bp;最后,將DNA序列提取出來并去掉其中重復(fù)的序列得到DNA短序列;
步驟二:分割DNA短序列:
分別將DNA短序列中前N-4個(gè)堿基作為頭堿基,將頭堿基及其之后連續(xù)的四個(gè)堿基劃分為一個(gè)子序列,并將頭堿基在DNA短序列的次序作為子序列的編號(hào),子序列的編號(hào)為正整數(shù);N是DNA短序列中的堿基數(shù)量,N為正整數(shù);子序列中包括五個(gè)堿基,頭堿基是子序列中的第一個(gè)堿基,DNA短序列可以劃分出N-4個(gè)子序列;
步驟三:均值檢測(cè):
分別對(duì)四種堿基包括A(腺嘌呤)、T(胸腺嘧啶)、C(胞嘧啶)、G(鳥嘌呤)計(jì)算當(dāng)前堿基均值:
(1)正在計(jì)算的堿基為當(dāng)前堿基,按照子序列的編號(hào),依次統(tǒng)計(jì)當(dāng)前堿基在子序列中出現(xiàn)的次數(shù)得到均值向量(y
(2)統(tǒng)計(jì)出均值向量中取值大于3的元素的個(gè)數(shù)即為當(dāng)前堿基均值;
對(duì)四種堿基計(jì)算出的當(dāng)前堿基均值進(jìn)行均值檢測(cè):如果四個(gè)當(dāng)前堿基均值都在0.8N~1.2N的范圍內(nèi),則進(jìn)行步驟四;否則檢測(cè)結(jié)束,DNA短序列不是轉(zhuǎn)錄因子結(jié)合位點(diǎn);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海嘉因生物科技有限公司,未經(jīng)上海嘉因生物科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711464358.X/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F19-00 專門適用于特定應(yīng)用的數(shù)字計(jì)算或數(shù)據(jù)處理的設(shè)備或方法
G06F19-10 .生物信息學(xué),即計(jì)算分子生物學(xué)中的遺傳或蛋白質(zhì)相關(guān)的數(shù)據(jù)處理方法或系統(tǒng)
G06F19-12 ..用于系統(tǒng)生物學(xué)的建模或仿真,例如:概率模型或動(dòng)態(tài)模型,遺傳基因管理網(wǎng)絡(luò),蛋白質(zhì)交互作用網(wǎng)絡(luò)或新陳代謝作用網(wǎng)絡(luò)
G06F19-14 ..用于發(fā)展或進(jìn)化的,例如:進(jìn)化的保存區(qū)域決定或進(jìn)化樹結(jié)構(gòu)
G06F19-16 ..用于分子結(jié)構(gòu)的,例如:結(jié)構(gòu)排序,結(jié)構(gòu)或功能關(guān)系,蛋白質(zhì)折疊,結(jié)構(gòu)域拓?fù)洌媒Y(jié)構(gòu)數(shù)據(jù)的藥靶,涉及二維或三維結(jié)構(gòu)的
G06F19-18 ..用于功能性基因組學(xué)或蛋白質(zhì)組學(xué)的,例如:基因型–表型關(guān)聯(lián),不均衡連接,種群遺傳學(xué),結(jié)合位置鑒定,變異發(fā)生,基因型或染色體組的注釋,蛋白質(zhì)相互作用或蛋白質(zhì)核酸的相互作用
- 樣本引入裝置、樣本引入基片和樣本引入方法
- 樣本查找方法、裝置及系統(tǒng)
- 模型訓(xùn)練、樣本平衡方法及裝置以及個(gè)人信用評(píng)分系統(tǒng)
- 樣本輸送系統(tǒng)、樣本輸送方法以及樣本檢測(cè)系統(tǒng)
- 樣本分析裝置、樣本檢測(cè)設(shè)備及樣本檢測(cè)方法
- 樣本檢測(cè)方法、樣本檢測(cè)裝置及樣本檢測(cè)系統(tǒng)
- 樣本架、樣本混勻系統(tǒng)及樣本分析儀
- 樣本收集管及樣本收集系統(tǒng)
- 樣本數(shù)據(jù)集的擴(kuò)容方法及模型的訓(xùn)練方法
- 行人重識(shí)別的噪聲樣本識(shí)別方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 一種鑒定植物遠(yuǎn)緣雜交種中外源染色體和染色體片段的方法
- 一種基于深度學(xué)習(xí)的重疊染色體分割方法及裝置
- 一種基于條帶識(shí)別的染色體排序方法
- 一種染色體切割數(shù)據(jù)的處理方法、系統(tǒng)和存儲(chǔ)介質(zhì)
- 彎曲染色體圖像拉直模型生成方法、模型的應(yīng)用、系統(tǒng)、可讀存儲(chǔ)介質(zhì)及計(jì)算機(jī)設(shè)備
- 染色體嵌合體識(shí)別判斷方法、系統(tǒng)及染色體核型分析方法
- 染色體核型圖優(yōu)選拼接方法、系統(tǒng)及染色體核型分析方法
- 自動(dòng)染色體核型分析方法、系統(tǒng)和存儲(chǔ)介質(zhì)
- 染色體異常檢測(cè)裝置
- 一種染色體核型分析中染色體分割方法





