[發明專利]一種基于大間隔最近中心點的蛋白質二級結構的工程預測方法無效
| 申請號: | 201010120350.3 | 申請日: | 2010-03-09 |
| 公開(公告)號: | CN101794351A | 公開(公告)日: | 2010-08-04 |
| 發明(設計)人: | 王寬全;楊偉;左旺孟;袁永峰;張宏志 | 申請(專利權)人: | 哈爾濱工業大學 |
| 主分類號: | G06F19/00 | 分類號: | G06F19/00;G06F17/30 |
| 代理公司: | 哈爾濱市松花江專利商標事務所 23109 | 代理人: | 牟永林 |
| 地址: | 150001 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 間隔 最近 中心點 蛋白質 二級 結構 工程 預測 方法 | ||
1.一種基于大間隔最近中心點的蛋白質二級結構的工程預測方法,其特征是:
采用下列步驟實現:
步驟一、下載發布的NCBI?nr數據庫和PDB格式的蛋白質結構數據,基于PDB格式 的蛋白質結構數據構造非冗余蛋白質二級結構訓練數據集;
步驟二、給定目標蛋白質一級序列數據,根據步驟一提供的NCBI?nr數據庫為目標蛋 白質一級序列中的每個殘基構造多序列比對特征向量;
步驟三、基于步驟二中構造的目標蛋白質序列的多序列比對特征向量,調用大間隔最 近中心點算法,獲得目標蛋白質的二級結構預測數據,
在步驟三中,所述的大間隔最近中心點算法是通過以下步驟實現的:
步驟三·一、基于步驟二中為非冗余蛋白質二級結構訓練數據集中的所有殘基構造的 多序列比對特征向量,以殘基對應的二級結構作為特征向量的標簽構造大間隔最近中心點 算法的訓練樣本集;
步驟三·二、基于步驟三·一構造的訓練樣本集,利用歐氏距離的K-means聚類算法 確定各類樣本的中心點,其中,螺旋類樣本、卷曲類樣本和折疊類樣本對應的K值分別為 3,3和2;
步驟三·三、基于步驟三·二確定的各類樣本的中心點和給定的初始超參數μ,利用子 梯度投影算法,通過最小化目標損失函數求解大間隔最近中心點模型的線性變換矩陣,其 中,目標損失函數形式化為凸半定規劃問題,
所述的大間隔最近中心點,學習一個線性變換矩陣L而實現的,
訓練數據集T={(x1,y1),(x2,y2),...,(xN,yN)}中通過分別對每類的所有中心點從1進行依次 編號,可以用mjk唯一表示一個中心點,其中j∈{1,2,...,C}是中心點對應的類別,k∈{1,2,...,nj} 是中心點的編號,nj表示第j類樣本聚類后的中心點數目;
對于每個聚類,把它的中心點稱為其包含樣本的目標中心點,一個樣本的目標中心點, 就是在度量學習過程中應該與其距離最近的中心點,目標中心點是在度量學習之前確定的 并在學習過程中保持不變;為表示目標中心點的信息,每個訓練樣本xi增加一個代表其目 標中心點編號的標簽ti;
對于每個訓練樣本點(xi,yi),L滿足公式一的約束;對于任意一個不等于yi的j,k為任 意值時,
公式一
即每個樣本點與其目標中心點的距離和它與其它類別中心點的距離應至少保持一個單 位間隔,目標損失函數ε(L)包括兩項:第一項用來懲罰公式一的邊界違背,第二項用來正 則化線性變換矩陣L,其中,線性變換矩陣L使得目標損失函數ε(L)最小化:
其中,函數[z]+=max(z,0)表示鉸鏈損失;當公式一中的不等式對任意樣本xi都滿足時, 所有鉸鏈損失[z]+的值都為0;此時,目標損失函數ε(L)達到最小值;
引入一個矩陣變量M=LTL,M是半正定矩陣,通過用M替換L,可以把目標損失函 數ε(L)表示為:
上式中的目標損失函數ε(L),是關于矩陣M中元素的分段線性凸函數;對其進行標準 化,定義非負松弛變量{ξijk}來模擬上式中所有鉸鏈損失[z]+的影響,M是半正定矩陣,因 此,將目標損失函數ε(M)的最小化形式化為凸半正定規劃:
最小化:
制約條件為:
對每一個樣本類別分別學習一個線性變換;
多度量大間隔最近中心點分類模型,嘗試學習C個線性變換矩陣Lj,每個樣本點(xi,yi), 滿足如下條件:
公式二
其中,j為不等于yi的從1到C的自然數,k為任意值,與公式一不同之處在于,公式 二中樣本與中心點的距離還依賴于中心點所對應的類別;為獲得滿足條件的C個線性變換 矩陣,定義目標損失函數ε(L1,...,LC):
最小化目標損失函數ε(L1,...,LC),定義C個半正定矩陣Mj=LjTLj,其中j為從1到C 的自然數,定義松弛變量{ξijk},將目標損失函數ε(Mj)的最小化形式化為凸半正定規劃:
最小化:
制約條件為:
同理,C個線性變換矩陣可以用子梯度投影算法快速地求解,并且不存在局部極小值 問題;
線性變換矩陣可以用快速的子梯度算法求解,具體過程如下:
在第t次迭代中,令Mt-1為迭代開始時的半正定矩陣,則此時的目標損失函數ε(Mj)為:
上式中,由于Mt-1是分段線性的;定義一個三元組集ψt,當i、j、k在ψt范圍內觸發 鉸鏈損失[z]+,即ξijk大于0時,可以計算目標損失函數ε(Mt-1)的梯度Gt:
其中,I為單位矩陣,梯度Gt僅依賴于三元組集ψt,因此,連續兩次迭代梯度的改變 僅由ψt與ψt+1之差決定;因此,基于第t次迭代的梯度Gt快速地計算第t+1次迭代的梯度 Gt+1:
對于小的梯度步長,三元組集ψt在連續兩次迭代中的改變很小,因此,上式中的梯度 可以以極快的速度進行計算;
完成梯度Gt的計算后,目標損失函數ε(Mj)應沿著子梯度方向下降一步,即根據梯度 步長α,參數矩陣Mt-1應作如下更新:
M′t=Mt-1-αGt
為了保證更新后的參數矩陣是半正定矩陣,將M′t對角化,用M′t=PΛPT表示M′t的特 征分解,其中P是特征向量的正交矩陣,Λ是以對應的特征值為對角元素的對角矩陣,將 Λ中所有負特征值都變為0,可以得到一個新的對角矩陣Λ+,Λ+=max(Λ,0),則M′t到半 正定錐投影為Mt,Mt=PΛ+PT;
根據收斂時的半正定矩陣Mt=PΛ+PT,可以獲得線性變換矩陣L:L=PT(Λ+)1/2。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學,未經哈爾濱工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010120350.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種成型機光模的垂直同軸度調節裝置
- 下一篇:組合納米材料優化PCR的方法
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





