[發明專利]一種基于組和圖稀疏化的基因序列分類方法有效
| 申請號: | 201310464401.8 | 申請日: | 2013-09-30 |
| 公開(公告)號: | CN103473484A | 公開(公告)日: | 2013-12-25 |
| 發明(設計)人: | 戴新宇;付強 | 申請(專利權)人: | 南京大學 |
| 主分類號: | G06F19/24 | 分類號: | G06F19/24 |
| 代理公司: | 江蘇圣典律師事務所 32237 | 代理人: | 胡建華 |
| 地址: | 210000 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 稀疏 基因 序列 分類 方法 | ||
1.一種基于組和圖稀疏化的基因序列分類方法,其特征在于,包括以下步驟:
步驟一,對基因序列的特征空間進行分組:用稀疏表示的方法把訓練集中每一個基因序列表示為向量構成特征空間,向量的每一維代表特征空間中的一個特征,并且把整個特征空間劃分成互不相交的兩個以上的組,每一個基因序列包括一個類標;
步驟二,在兩個以上的組之間建立一個有向無環圖,并且為有向無環圖上的每一條邊給定一個代價值;
步驟三,利用基于組和圖稀疏化的邏輯回歸分類器模型為基因序列分類。
2.根據權利要求1中所述的方法,其特征在于,步驟一包括以下步驟:
對于訓練集中的基因序列dj=c1,c2,…cjj…,ck,其中cjj=)A,C,G,T}為基因序列dj中的第jj個堿基,A為腺嘌呤、G為鳥嘌呤、T為胸腺嘧啶、C為胞嘧啶,jj=1,2,…k,k表示基因序列dj的總長度;對于基因序列dj,特征空間中的一個特征如果出現在基因序列dj中,則將這個特征對應的向量中的維度記為1,否則為0;由此基因序列dj的稀疏表示的向量形式xj為:
xj=(w1,j,w2,j,...,wm,j),
m表示特征空間的總數,wi,j表示特征的值,i∈{1,2,......m},i表示特征的序號,wi,j表示對應的特征是否存在于基因序列中。
3.根據權利要求2所述的方法,其特征在于,步驟一包括以下步驟:
根據模板來對特征空間中的特征進行分組,把特征空間劃分成互不相交的組;
所述模板是由堿基的位置組成的,也就是集合{1,2,...,k}中的元素組成的;根據組成模板的位置的個數,模板分為對應的階數;一個n階的模板是由{1,2,…,k}中n個不同的位置組成的,n的取值范圍是1≤n≤k的整數,對于長度為k的基因序列,n階模板的個數就是從k個里面選擇n個的組合數;模板的實例是該模板下所有可能組合的堿基序列;每一個實例表示一個特征,所有模板的所有實例組成整個特征空間;模板的個數由下面的公式來計算:
其中nt表示一個正整數,表示使用的模板中的最大的階數,nt的取值范圍是1≤nt≤k的整數;
一個模板下的全部實例對應的特征組成一個組,把特征空間劃分為互不相交的兩個以上組,組的數目與模板數目相同;
特征空間中的劃分記為π={B1,…,Bii...,Bq},π表示所有組的集合,q表示組的個數,ii表示組號,Bii表示特征空間I={1,2,...,m}上的一個子集,也就是一個組,I表示特征空間上的特征的序號的集合,并且滿足條件:
4.根據權利要求1中所述的方法,其特征在于,步驟二包括以下步驟:
在組與組之間建立一個有向無環圖G=(V,E),V表示圖的節點集合,圖上的每一個節點代表一個組,E表示圖的邊集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310464401.8/1.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





