[發明專利]一種人類基因啟動子識別方法無效
| 申請號: | 200810069941.5 | 申請日: | 2008-07-08 |
| 公開(公告)號: | CN101307359A | 公開(公告)日: | 2008-11-19 |
| 發明(設計)人: | 梁桂兆;舒茂;梅虎;楊力;李志良 | 申請(專利權)人: | 重慶大學 |
| 主分類號: | C12Q1/68 | 分類號: | C12Q1/68 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 400044重*** | 國省代碼: | 重慶;85 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 人類基因 啟動子 識別 方法 | ||
技術領域
本發明涉及一種人類基因識別方法,特別是一種人類基因啟動子識別方法。
背景技術
人類基因草圖的繪制成功加速了人類對整個基因的分析。對于每個基因的轉錄活性,啟動子是重要的調控區域。啟動子區域的確定及其結構功能的詮釋是理解基因表達方式、基因調控網絡、細胞分化和發育的基礎。啟動子預測對于發現新的未知基因,對于基因治療方法中改善表達載體或基因導入系統都具有至關重要的作用。啟動子預測已引起廣泛關注,其預測程序是建立在不同概念之上的,根本的原理是啟動子區域的特性不同于其它基因DNA特性,這些概念包括基于信號與基于內容的。對生物啟動子進行計算機預測和識別是一項具有挑戰性的工作,啟動子的多樣性和對轉錄調控機制認識的局限性,給相關的研究工作帶來很大的困難。同源比對算法已經用于核苷酸序列同源性比對,但用于啟動子預測仍處于幼年時期,雖可通過比對算法來聚類同源啟動子,但大多數情況下,同源基因啟動子元件的序列保守性遠遠低于其編碼序列,因此,相似性搜索不再對其功能識別提供有益的線索(Duret?et?al.,Curr.Opin.Struct.Biol.,1997,7:399)。此外,許多啟動子受多條信號通路的調節,特異性響應不同刺激的功能需求使啟動子的組織結構變得更加復雜多樣。有時甚至受同一條信號通路調節的啟動子也可能完全不具有序列同源性(Kirchhamer,et?al.,Proc.Natl.Acad.Sci.U.S.A.,1996,93:9322)。另外,啟動子中存在許多像轉錄因子結合位點一樣的序列結構特征,而這些特征結構并不為啟動子所獨有,它們散布在整個基因組中,如何濾除這為數眾多的噪音信號也成為大片段基因組中啟動子的計算機預測所面臨的難題(Sap,et?al.,Nature,1989,340:242;Bohjanen,et?al.,Nucleic?Acids?Res.,1997,25:4481;Wang,et?al.,Proc.Natl.Acad.Sci.U.S.A.,1998,95:492)。有一些程序根據實驗獲得的轉錄因子結合特性來描述啟動子的序列特征,并依次作為啟動子預測的依據,但實際的效果并不十分理想,遺漏和假陽性都較嚴重。
發明內容
有鑒于此,為了解決上述啟動子預測所存在問題,本發明提供了一種人類基因啟動子識別方法,能夠用于人類基因啟動子區域的確定及其結構功能的詮釋,可用于發現新的未知基因。
本發明的目的是這樣實現的:一種人類基因啟動子識別方法,包括如下步驟:
a)基于主成分分析方法,建立堿基廣義性質得分表征體系;
b)應用堿基廣義性質得分對人類基因啟動子和非啟動子的結構進行表征;
c)用自交叉協方差方法對每個人類基因啟動子和非啟動子的表征變量做歸一化處理;
d)用徑向基核支持向量機建立人類基因啟動子識別模型。
進一步,在于步驟a)具體包括如下步驟:
a1)選取5種堿基的1209種0D-3D性質參數;
a2)對1209種性質參數做相關性分析,精選得到41個性質參數;
a3)用主成分分析法處理得到的堿基性質參數,得到4個主成分;
a4)計算各主成分得分,將得分矢量定義為堿基廣義性質得分;
進一步,步驟b)具體包括:用堿基廣義性質得分矢量所涉及的4個主成分對人類基因啟動子和非啟動子的序列沿5’→3’方向進行表征,其中的每個堿基用4個堿基廣義性質得分矢量表征;
進一步,步驟c)具體包括如下步驟:用自交叉協方差處理得到的每個啟動子和非啟動子序列的表征變量,設置步長l為6,使每個序列的表征變量數目一致,并將經自交叉協方差處理得到的變量作為啟動子識別模型的自變量;
進一步,步驟d)具體包括如下步驟:首先定義兩個指示變量,分別用“1”表示啟動子樣本,用“-1”表示非啟動子樣本,以此指示變量作為啟動子識別模型的因變量,用徑向基核支持向量機建立人類基因啟動子識別模型。
本發明的一種人類基因啟動子識別方法,其中選取的堿基廣義性質得分所含信息量大、物理化學意義明確、表征能力強、結果易解釋、拓展性能好及操作簡便;用自交叉協方差方法對每個啟動子和非啟動子的表征變量做歸一化處理,該方法能夠較大程度地減少原始變量信息的損失,同時可充分考慮相鄰堿基之間的交互效應及相互影響;而徑向基核支持向量機通過核函數技術,可以很好地相關經自交叉協方差轉換的序列表征變量及觀測分類值之間的關系,可以有效的防止模型的過擬合,同時,所建模型具有良好的泛化性能。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶大學,未經重慶大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810069941.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:通訊設備
- 下一篇:金屬管內壁的刷洗裝置





