[發(fā)明專利]一種基于統(tǒng)計顯著性能快速識別基因組轉(zhuǎn)錄因子結(jié)合位點的系統(tǒng)無效
| 申請?zhí)枺?/td> | 201210157108.2 | 申請日: | 2012-05-21 |
| 公開(公告)號: | CN103425900A | 公開(公告)日: | 2013-12-04 |
| 發(fā)明(設(shè)計)人: | 單杲 | 申請(專利權(quán))人: | 上海聚類生物科技有限公司 |
| 主分類號: | G06F19/20 | 分類號: | G06F19/20 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 200333 上海市楊*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 統(tǒng)計 顯著 性能 快速 識別 基因組 轉(zhuǎn)錄 因子 結(jié)合 系統(tǒng) | ||
?
技術(shù)領(lǐng)域
本發(fā)明屬于基因工程領(lǐng)域,尤其涉及到一種統(tǒng)計顯著性開發(fā)的快速識別基因組轉(zhuǎn)錄因子結(jié)合位點的系統(tǒng)。
?
背景技術(shù)
預(yù)測序列模體是生物學(xué)家研究調(diào)控的主要挑戰(zhàn)。這是一個十分經(jīng)典的問題。因此有許多軟件針對這個問題而開發(fā)。通俗地講,他們能分類到三種類型?的模體檢測。(1)?統(tǒng)計顯著性,如YMF,?MDscan.?(2)?Gibbs?抽樣,例如?Gibbs?抽樣器,?MotifSampler,?SesiMCMC,?GAME,?Improbizer?以及?GibbsScan?有些工具有更復(fù)雜的策略,例如著名的工具?MEME。
在轉(zhuǎn)錄調(diào)控研究的過程中,?我們注意到的轉(zhuǎn)錄因子的結(jié)合位點的一些基于一致輸出的模體是相當(dāng)困難的,有些基于?PWM?表示這些類型相當(dāng)?shù)睦_生物學(xué)家,?如果我們開始進一步地研究模體的輸出,到整個基因啟動子的反式作用元件,那樣會包含相當(dāng)多的假陽性,?來使用生物學(xué)研究,我們不得不花費大量的時間調(diào)節(jié)參數(shù)到我們希望的結(jié)果.。
出于一種簡單的考慮,?我們開始一個簡單的程序,只關(guān)注種子而不是PWM?的一致序列.我們的目的是找到啟動子序列來迭代地構(gòu)建一致序列或?PWM.?我們希望軟件能真正服務(wù)我們的反式作用元件,?所以我們并不十分關(guān)心如何找到模體,而是關(guān)注我們的模體如何地進行調(diào)控分析。
這里有另外的三個問題需要我們考慮模體的輸出:(1)?我們?nèi)绾巫R別已知的模體,?(2)?我們?nèi)绾嗡阉魑覀兊哪sw,使在全基因組搜索保存低假陽性率:?(3)?我們?nèi)绾握嬲档湍sw的冗余。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一個基于統(tǒng)計顯著性的K串法預(yù)測基因組的轉(zhuǎn)錄因子結(jié)合位點的分析方案,旨在解決轉(zhuǎn)錄因子結(jié)合位點的全基因組預(yù)測的快速解決的問題。
?本發(fā)明是這樣實現(xiàn)的,所述方法包括如下幾個步驟:
???對基因組的給定的基因組啟動子序列統(tǒng)計顯著性計算,設(shè)置基本的統(tǒng)計顯著性指標(biāo),P值和Z值,統(tǒng)計具有統(tǒng)計顯著性的字符串。
????對于已得到到統(tǒng)計顯著性K串,?利用編輯距離進行聚類,得到鄰近K串的幾個聚類信息。
????接著,利用自適應(yīng)迭代算法計算每個聚類能生成權(quán)重矩陣,實現(xiàn)自動設(shè)置權(quán)重矩陣模型參數(shù)的解決方案。
???該發(fā)明的另一個特點是能夠?qū)崿F(xiàn)系統(tǒng)自動調(diào)整權(quán)重矩陣的邊界問題,我們篩選了一個自動迭代的算法過程,用于自動調(diào)整權(quán)重矩陣的邊界問題,保持權(quán)重矩陣以中心為高顯著性位置,兩側(cè)為低顯著性位置的排布,把權(quán)重矩陣的中心化完美的實現(xiàn)出來,大大提高了權(quán)重矩陣的比對和有利于轉(zhuǎn)錄因子表示的標(biāo)準(zhǔn)化過程的實現(xiàn)。
????本發(fā)明的再一個目的在于,我們開發(fā)了一套計算精確二階度矩的計算方法,它可以有效提供統(tǒng)計顯著性的精確值。
????該統(tǒng)計顯著性的二階矩的計算模型是通過構(gòu)建隱馬爾科夫模型的自交迭迭代算法計算獲得,具有線性算法的一般規(guī)律,計算復(fù)雜性很低。因此,具有快速實現(xiàn)結(jié)果預(yù)測的良好作用,是本發(fā)明研究的一個特點。
附圖說明
圖1,程序預(yù)測的基本流程示意圖
圖2,程序設(shè)計界面顯示圖
具體實施方式
????根據(jù)上面的要求,我們開始了相應(yīng)的程序的開發(fā)和Tampa的YMF相似,我們計算統(tǒng)計顯著性,利用的是一個線性算法,我們同樣也關(guān)注枚舉方法的統(tǒng)計顯著性字,產(chǎn)生的模體用Z值分類,其中W是給定的字,我們考慮字W的計數(shù),?Ew是從背景中計算期望,δw是字W的標(biāo)準(zhǔn)方差,?Z值越大表示越顯著.
??????我們的模體檢測框架,來保持我們預(yù)測結(jié)果的穩(wěn)定和可控.在很多情況下,?他是讓我們很難聯(lián)系實際問題,?這里有一些我們方法的特征.
???????對每個字串計算Z值,而不是針對沃森-克里克互補配對
???????背景概率的馬爾科夫可變
???????嚴格的期望與方差的計算,而不是近似
???????利用編輯距離對冗余的顯著字串聚類
???????自動搜索模體的側(cè)翼邊界
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海聚類生物科技有限公司,未經(jīng)上海聚類生物科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210157108.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:具有過濾裝置的機床冷卻泵
- 下一篇:紗窗框
- 同類專利
- 專利分類
G06F 電數(shù)字數(shù)據(jù)處理
G06F19-00 專門適用于特定應(yīng)用的數(shù)字計算或數(shù)據(jù)處理的設(shè)備或方法
G06F19-10 .生物信息學(xué),即計算分子生物學(xué)中的遺傳或蛋白質(zhì)相關(guān)的數(shù)據(jù)處理方法或系統(tǒng)
G06F19-12 ..用于系統(tǒng)生物學(xué)的建模或仿真,例如:概率模型或動態(tài)模型,遺傳基因管理網(wǎng)絡(luò),蛋白質(zhì)交互作用網(wǎng)絡(luò)或新陳代謝作用網(wǎng)絡(luò)
G06F19-14 ..用于發(fā)展或進化的,例如:進化的保存區(qū)域決定或進化樹結(jié)構(gòu)
G06F19-16 ..用于分子結(jié)構(gòu)的,例如:結(jié)構(gòu)排序,結(jié)構(gòu)或功能關(guān)系,蛋白質(zhì)折疊,結(jié)構(gòu)域拓撲,用結(jié)構(gòu)數(shù)據(jù)的藥靶,涉及二維或三維結(jié)構(gòu)的
G06F19-18 ..用于功能性基因組學(xué)或蛋白質(zhì)組學(xué)的,例如:基因型–表型關(guān)聯(lián),不均衡連接,種群遺傳學(xué),結(jié)合位置鑒定,變異發(fā)生,基因型或染色體組的注釋,蛋白質(zhì)相互作用或蛋白質(zhì)核酸的相互作用
- 統(tǒng)計系統(tǒng)、統(tǒng)計裝置和統(tǒng)計方法
- 人數(shù)統(tǒng)計方法和人數(shù)統(tǒng)計系統(tǒng)
- 統(tǒng)計物體數(shù)量的統(tǒng)計系統(tǒng)
- 網(wǎng)絡(luò)處理器的統(tǒng)計計數(shù)方法
- 統(tǒng)計信息上報方法及裝置
- 稿件統(tǒng)計方法和稿件統(tǒng)計系統(tǒng)
- 數(shù)據(jù)統(tǒng)計方法及裝置
- 獲取數(shù)據(jù)的統(tǒng)計狀態(tài)的方法及裝置
- 信息統(tǒng)計方法和信息統(tǒng)計裝置
- 電量統(tǒng)計系統(tǒng)及電量統(tǒng)計方法





