[發明專利]一種基于組和圖稀疏化的基因序列分類方法有效

申請號：	201310464401.8	申請日：	2013-09-30
公開（公告）號：	CN103473484A	公開（公告）日：	2013-12-25
發明（設計）人：	戴新宇;付強	申請（專利權）人：	南京大學
主分類號：	G06F19/24	分類號：	G06F19/24
代理公司：	江蘇圣典律師事務所 32237	代理人：	胡建華
地址：	210000 江***	國省代碼：	江蘇;32
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于稀疏基因序列分類方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于組和圖稀疏化的基因序列分類方法，其特征在于，包括以下步驟：

步驟一，對基因序列的特征空間進行分組：用稀疏表示的方法把訓練集中每一個基因序列表示為向量構成特征空間，向量的每一維代表特征空間中的一個特征，并且把整個特征空間劃分成互不相交的兩個以上的組，每一個基因序列包括一個類標；

步驟二，在兩個以上的組之間建立一個有向無環圖，并且為有向無環圖上的每一條邊給定一個代價值；

步驟三，利用基于組和圖稀疏化的邏輯回歸分類器模型為基因序列分類。

2.根據權利要求1中所述的方法，其特征在于，步驟一包括以下步驟：

對于訓練集中的基因序列d_j=c₁,c₂,…c_jj…,c_k，其中c_jj=)A,C,G,T}為基因序列d_j中的第jj個堿基，A為腺嘌呤、G為鳥嘌呤、T為胸腺嘧啶、C為胞嘧啶，jj=1,2,…k，k表示基因序列d_j的總長度；對于基因序列d_j，特征空間中的一個特征如果出現在基因序列d_j中，則將這個特征對應的向量中的維度記為1，否則為0；由此基因序列d_j的稀疏表示的向量形式x_j為：

x_j=(w_1,j,w_2,j,...,w_m,j)，

m表示特征空間的總數，w_i,j表示特征的值，i∈{1,2,......m}，i表示特征的序號，w_i,j表示對應的特征是否存在于基因序列中。

3.根據權利要求2所述的方法，其特征在于，步驟一包括以下步驟：

根據模板來對特征空間中的特征進行分組，把特征空間劃分成互不相交的組；

所述模板是由堿基的位置組成的，也就是集合{1,2,...,k}中的元素組成的；根據組成模板的位置的個數，模板分為對應的階數；一個n階的模板是由{1,2,…,k}中n個不同的位置組成的，n的取值范圍是1≤n≤k的整數，對于長度為k的基因序列，n階模板的個數就是從k個里面選擇n個的組合數；模板的實例是該模板下所有可能組合的堿基序列；每一個實例表示一個特征，所有模板的所有實例組成整個特征空間；模板的個數由下面的公式來計算：

Ck1+Ck2+···Cknt,]]>