[發明專利]一種基于角度特征的短時序基因表達數據聚類方法有效
| 申請號: | 202010060429.5 | 申請日: | 2020-01-19 |
| 公開(公告)號: | CN111276188B | 公開(公告)日: | 2023-03-24 |
| 發明(設計)人: | 李愛民;劉雅君;裴廣勝;劉光明;費蓉;周紅芳;王磊;黑新宏 | 申請(專利權)人: | 西安理工大學 |
| 主分類號: | G16B30/00 | 分類號: | G16B30/00;G16B40/00;G06F18/23 |
| 代理公司: | 北京國昊天誠知識產權代理有限公司 11315 | 代理人: | 楊洲 |
| 地址: | 710048*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 角度 特征 時序 基因 表達 數據 方法 | ||
1.一種基于角度特征的短時序基因表達數據聚類方法,其特征在于,包括以下步驟:
步驟1,計算角度特征
相鄰兩個時間點的表達水平推算出來的角度作為表達水平變化的一個特征,因為它反映了一個時間段上表達水平的變化,對于任意的兩個相鄰的時間點,計算角度,對于給定的一個基因g,計算出一個角度向量v,
vig=arctan((x(i+1)g-xig)/(ti+1-ti)) (1)
其中,i=1,2,…,n-1,n為時間點個數,ti表示時間點i,xig是基因g在時間點i的表達水平,arctan指反正切函數,反正切函數是反三角函數的一種,即正切函數的反函數,vig表示基因g在全部n個時間點的角度向量,因此,對于有n個時間點的表達水平,共有n-1個角度,該角度稱為一階角度,一階角度主要反映相鄰兩個時間點基因表達水平的變化趨勢,
為了確保提取數據特征時盡量減少信息丟失,提取基因表達水平變化的整體變化情況,也轉換為角度,便于聚類,計算公式為,
aig=arctan(xig) (2)
因此,對于有n個時間點的表達水平,共有n-1個反映整體表達水平的角度,對于任何一個基因,得到(n-1)+(n-1)=2n-2維的角度向量;
對于任意的兩個基因g和h,通過相應位置的角度相似性來衡量它們的表達水平的相似性,采用皮爾森相關系數作為相似性測度:
其中,ρgh表示基因g的角度向量和基因h的角度向量之間的相關系數,cov(vg,vh)表示基因g的角度向量和基因h的角度向量之間的協方差,σg表示基因g的角度向量的標準差,σh表示基因h的角度向量的標準差,μg表示基因g的角度向量的期望,μh表示基因h的角度向量的期望,ρgh的值越大表示基因g和h的表達越相似,E表示數學期望;
步驟2,用Affinity Propagation聚類算法聚類
采用Affinity Propagation聚類算法對以上步驟獲得的角度特征進行聚類,聚類時,可以指定聚類數量,也可不指定聚類數量,通過改變聚類的數量可以觀察數量與性能之間的關系;
步驟3,獲得功能顯著的類
STEM使用permutation test找出表達譜是顯著的類,STEM把全部的表達譜預先固定下來,然后把全部基因劃分到這些表達譜中,permutation test僅考慮了表達譜的基因的數量的多少,沒有考慮其他可以利用的特性。
2.根據權利要求1所述的一種基于角度特征的短時序基因表達數據聚類方法,其特征在于,所述的步驟3,利用permutation test計算確定一些顯著類,然后再用另外的三個特性來找出重疊的類,具體做法是:
1)度量表達水平波動情況的指標:對于一個類q,求出該類的中心(分別取各個時間點的表達值的中值),然后求類的中心在全部時間點的最大表達值和最小表達值之差,這是一個度量表達水平波動情況的指標,該差值越大則表達水平變化越大,該類代表的表達譜越不會是隨機的,
dq=max(mqi)-min(mqi) (5)
其中,mqi表示q類中所有基因在時間點i的表達水平的中值,其中i=1,2,3…n,n為時間點個數,med表示求中值,r=1,2,3…R,其中R表示q類中基因總數量,xqri表示q類中第r個基因在第i個時間點的表達水平,max表示求最大值,min表示求最小值,dq表示q類的中心在全部時間點的最大表達值和最小表達值之差,即為表達水平波動情況;
2)同質性:對于一個類,計算各個基因和類中心之間的差異,然后求這些差異的平均值,最后用1減去歸一化的平均值,得到同質性,
其中,uqi表示q類在時間點i到時間點i+1之間的角度的中值,其中i=1,2,3…n-1,n為時間點個數,med表示求中值,vqri為q類第r個基因在時間點i到時間點i+1之間的角度,R表示q類中基因總數量,Iq表示q類中的各個基因的角度向量與類中心的角度向量的差異的均值,即為同質性;
3)衡量聚類結果為功能顯著類的程度指標:在滿足以上兩個條件的前提下,某個類中的基因越多越不隨機,也就是說,在表達水平變化較大并且內聚性較好的類中,基因越多越不會是隨機的,如果內聚性不好的話,基因越多會導致相反的結果,
某個類q的功能顯著的程度為:
SIGq=dq/max(dy)+2(1-Iq/max(Iy))+2(Nq/max(Ny)) (8)
其中,SIGq為q類為功能顯著類的程度指標(取值范圍0~5),y=1,2,3…Y,Y為類的數量,dq表示q類的中心在全部時間點的最大表達值和最小表達值之差,dy表示y類的中心在全部時間點的最大表達值和最小表達值之差,Ny表示y類中基因的數量,Nq表示q類中基因的數量,Iy表示y類中的各個基因的角度向量與類中心的角度向量的差異的均值,Iq表示q類中的各個基因的角度向量與類中心的角度向量的差異的均值,max表示求最大值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安理工大學,未經西安理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010060429.5/1.html,轉載請聲明來源鉆瓜專利網。





