[發明專利]一種基于角度特征的短時序基因表達數據聚類方法有效
| 申請號: | 202010060429.5 | 申請日: | 2020-01-19 |
| 公開(公告)號: | CN111276188B | 公開(公告)日: | 2023-03-24 |
| 發明(設計)人: | 李愛民;劉雅君;裴廣勝;劉光明;費蓉;周紅芳;王磊;黑新宏 | 申請(專利權)人: | 西安理工大學 |
| 主分類號: | G16B30/00 | 分類號: | G16B30/00;G16B40/00;G06F18/23 |
| 代理公司: | 北京國昊天誠知識產權代理有限公司 11315 | 代理人: | 楊洲 |
| 地址: | 710048*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 角度 特征 時序 基因 表達 數據 方法 | ||
一種基于角度特征的短時序基因表達數據聚類方法,包括以下步驟:步驟1,計算角度特征;步驟2,用Affinity Propagation聚類算法聚類;步驟3,獲得功能顯著的類;把基因表達變化趨勢相似的基因聚為一類,同屬于一類的基因有功能相似的趨勢;對于每一個基因,相鄰時間點的基因表達的變化可以計算出角度特征,反映基因表達的局部變化趨勢;對于每個時間點,用換算后的角度間接反映整體的表達水平情況;以這些角度為特征,皮爾森相關系數作為相似性測度,相關系數越大,表示兩個基因的表達譜越相似;然后用Affinity Propagation聚類算法聚類;具有聚類結果更能反映基因功能、聚類結果做功能富集分析的p值更小的特點。
技術領域
本發明屬于時序基因表達技術領域,具體涉及一種基于角度特征的短時序基因表達數據聚類方法。
背景技術
時序基因表達實驗作為一種研究很多生物學過程的方法越來越普遍,比如研究細胞繁殖、發育、對外部刺激的響應等。基因的時序表達數據可以粗略地分為兩類:有較少的時間點(一般3到8個時間點)的短時序,超過8個時間點的長時序。據估計現存的時序基因表達數據中,大約80%的時序基因表達數據集都是短時序的。大部分分析時序數據集的算法都是基于通用的聚類方法,比如層次聚類、k-means、Bayesian網絡、自組織映射等。盡管這些方法能揭示一些生物學特征,但是它們沒有考慮時序數據的時序本質。這些算法一般沒有考慮各時間點的先后順序和依賴關系。最近,一些研究組提出專門針對聚類時序基因表達數據的方法,包括表達譜的連續表示、隱馬爾可夫模型以及其他方法。然而,這些算法在長時序數據集表現良好。對于短時序數據,由于采樣點數量少導致數據過擬合,效果不佳。
對于短時序基因表達數據,Jason Ernst等人提出一個專門聚類短時序表達數據的算法STEM(Short Time-series Expression Miner)。該算法預先定義一個潛在的實驗期望的模型表達譜集合。然后,把基因劃分到不同的模型表達譜中。Jason Ernst等人討論了如何獲得這樣的模型表達譜集合,以及如何通過permutation tests確定每個表達譜的顯著性。Alain B Tchagang等人提出了兩個新的能從短時序基因表達數據中提取生物學模型的算法ASTRO(Analysis of Short Time-series using Rank Order preservation)和MiMeSR(minimum mean squared residue),分別受到秩保序框架和最小均方殘差方法的啟發。ASTRO也采用permutation test的方法確定顯著的聚類。PESTS(A Platform forProcessing Expression of Short Time Series)采用FBPA(the Feature BasedPartitioning around medoids Algorithm)做時序數據的分析。PESTS可以做顯著性分析、差異表達的顯著性、多重檢驗校正、聚類分析。
現有的這些針對短時序基因表達數據進行分析的算法或工具都有一些局限性。本發明使用酵母氨基酸挨餓時序基因表達數據。用STEM對700個基因聚類,采用默認的參數,STEM可以聚類約50個,其中GO(Gene Ontology)顯著的聚類約13個,其余的37個類都不是GO(Gene Ontology)功能顯著的。也就是說大部分聚到一起的基因在功能上不是顯著相似的或統計上功能不顯著。另外,STEM聚類的結果較為集中。比如,當聚類為50個時,部分類中基因數量達到150個,其余類中的基因數量過少。這有可能將多個不同功能的基因都聚到一個類中。較多的類在一個類中,不利于后續對基因的功能進一步分析。ASTRO可用來從短時序基因表達數據中提取有統計顯著性的表達譜,功能較為單一,對于沒有被包含在顯著表達譜中的基因不能分析。PESTS聚類后得到的結果用GO(Gene Ontology)進行功能富集性分析,其p-value遠遠大于STEM得到的p-value。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安理工大學,未經西安理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010060429.5/2.html,轉載請聲明來源鉆瓜專利網。





