[發明專利]一種基于卷積神經網絡的DNA綁定殘基預測方法在審
| 申請號: | 202010918314.5 | 申請日: | 2020-09-03 |
| 公開(公告)號: | CN112149881A | 公開(公告)日: | 2020-12-29 |
| 發明(設計)人: | 胡俊;白巖松;鄭琳琳;樊學強;張貴軍 | 申請(專利權)人: | 浙江工業大學 |
| 主分類號: | G06Q10/04 | 分類號: | G06Q10/04;G06K9/62;G06N3/04;G16B30/00;G16B50/30 |
| 代理公司: | 杭州斯可睿專利事務所有限公司 33241 | 代理人: | 王利強 |
| 地址: | 310014 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 卷積 神經網絡 dna 綁定 殘基 預測 方法 | ||
1.一種基于卷積神經網絡的DNA綁定殘基預測方法,其特征在于,所述預測方法包括以下步驟:
1)輸入一個殘基數為L的待進行DNA綁定殘基預測的蛋白質序列S;
2)對蛋白質序列S,使用HHblits程序搜索蛋白質序列數據庫Uniclust30獲取一個大小為M×L的多序列聯配信息,記作MSA;然后從MSA中提取一個大小為L×21的位置特異性頻率矩陣,記作PSFM;
3)對蛋白質序列S,使用PSIPRED程序獲取一個大小為L×3的二級結構矩陣,記作PSS;
4)對蛋白質序列S,使用SANN程序獲取一個大小為L×3的溶劑可及性特征矩陣,記作PSA;
5)對蛋白質序列S,使用I-LBR程序獲取一個大小為L×1的綁定位點概率預測矩陣,記作ILBR;
6)將步驟2)至5)中獲取的特征矩陣PSFM、PSS、PSA與ILBR組合為一個L×28的特征矩陣,記作F;
7)將F的首行前和尾行后分別填充7行28列的全為0的數據,記作F1;使用一個大小為15×28的窗口,以1為步長在F1中上下滑動,每一次滑動,將窗口的第8行所對應的殘基作為預測目標,提取一個大小為15×28的特征矩陣,記作ffea;
8)將ffea轉化為一個大小為28×15×15特征張量,記作fcube,fcube的任一位置元素由下列等式計算得到:
其中,ffea(m,i),ffea(n,i)分別表示ffea中第m行第i列元素和第n行第i列元素;
9)蛋白質序列S中每一個殘基對應的樣本表示為(fcube,label)i,i=1,2,…,L,fcube和label分別表示該殘基的特征張量和該殘基是否綁定DNA的標簽信息;
10)搭建卷積神經網絡預測蛋白質序列S的DNA綁定殘基,該網絡共有四層,前兩層為卷積層,后兩層為全連接層,每一層的輸出作為下一層的輸入,使用sigmoid激活函數使網絡的輸出值在(0,1)范圍內,該網絡的輸出記為:
g(I)=sigmoid(net2(net1(conv2(conv1(I)))))
其中,I表示網絡的輸入,conv1、conv2代表前兩層卷積層的運算,net1、net2代表后兩層全連接層的運算;
11)從PDB數據庫中獲取已知DNA綁定殘基狀態的蛋白質序列作為訓練蛋白質集合,對每一個訓練蛋白質序列,使用步驟2)-9)生成每個殘基樣本,構成訓練樣本集;
12)使用步驟11)中構建的訓練樣本集訓練步驟10)中搭建的卷積神經網絡,訓練階段都采用二分類交叉熵損失函數調整網絡中的參數,二分類交叉熵損失函數記作:
其中,u表示蛋白質序列中待測殘基的真實標簽,表示網絡模型的預測輸出值,Y表征預測輸出與真實標簽的差距;
13)將蛋白質S中每個生成的殘基樣本輸入到步驟12)訓練的模型中,根據模型的輸出概率是否大于判定閾值threshold,來判斷對應殘基是否為DNA綁定殘基。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工業大學,未經浙江工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010918314.5/1.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





