[發明專利]一種基于深度學習的基因表達譜距離度量方法有效
| 申請號: | 201910296276.1 | 申請日: | 2019-04-13 |
| 公開(公告)號: | CN110033041B | 公開(公告)日: | 2022-05-03 |
| 發明(設計)人: | 彭紹亮;劉偉;李非;楊亞寧;李肯立;盧新國;張磊;畢夏安 | 申請(專利權)人: | 湖南大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 國防科技大學專利服務中心 43202 | 代理人: | 王文惠 |
| 地址: | 410012 湖*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 基因 表達 距離 度量 方法 | ||
1.一種基于深度學習的基因表達譜距離度量方法,其特征在于,包括以下步驟:
步驟一:數據轉換處理,包括以下步驟,
1.1.將基因表達譜數據轉換成正方形數據矩陣,正方形矩陣長度根據表達譜數據的維度來計算,具體計算方式是:將數據維度為N的樣本,轉換為x*x的正方形矩陣,其中x通過公式獲得,多出來的像素位置補齊為0;
1.2.對正方形矩陣進行歸一化和減均值數據預處理操作;
1.3.將不同類別的表達譜矩陣分別賦予不同的類別標簽,并劃分訓練、驗證和測試樣本集;
步驟二:提取訓練樣本數據的高層次特征,包括以下步驟,
2.1.將訓練樣本集傳入特征提取網絡進行特征提取,其中,特征提取網絡采用DenseNet基本結構搭建,并使用三個Dense block,每個Dense block里面包含16層卷積,壓縮系數為0.5,模型增長率為12;
2.2.進行網絡訓練,網絡訓練是特征提取的關鍵步驟,網絡訓練過程中采用隱式度量學習的思路和隨機梯度下降方式訓練整個網絡,網絡訓練過程中的參數是:
其中,J是損失,θ是網絡參數,η是學習率,循環訓練網絡以拉大特征的類間距離減小類內距離,用以減少迭代次數而達到收斂狀態;
2.3.訓練完成后獲得最小損失函數,最小損失函數由CenterLoss和SoftmaxLoss結合而成:
其中,m是類別數量,n是訓練的批次大小,yi是單個類別,和是權重值,和bj是偏差值,xi是傳入的訓練值,是每個類別的聚類中心,λ是訓練中學習到的參數;
2.4.通過特征提取網絡獲得樣本數據的高層次特征;
步驟三:計算數據之間的距離,包括以下步驟,
3.1.接受步驟二中獲得的高層次特征作為參數進行距離計算,距離計算網絡基于Siamese網絡構架組成,其中,Siamese結構有兩個分支,兩個分支結構相同且共享權值,并且兩個分支結構中的卷積神經網絡部分由DenseNet網絡構成;
3.2.將測試數據傳入網絡,得到他們CenterLoss中已經定義好長度的高級特征表達,然后再用改進的余弦距離計算數據之間的距離,用以解決cosine相似度僅考慮向量維度方向上的相似而沒考慮到各個維度具體表達值的缺點,改進的余弦距離計算方式為:
其中,A和B是樣本集,Sim(A,B)是樣本之間的距離,是A*中的單個樣本,是B*中的單個樣本,max是樣本數據的最大值,min是樣本數據的最小值,mean是所有樣本的均值;
步驟四:檢驗所得距離的性能,將步驟三得到的距離和GSEA基因探針富集分析在同樣本數據下得到的距離傳入分類器中進行分類,得到兩種方法的分類準確度,比較分類準確度高低,判定分類準確度高的方法獲得的距離性能較好。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖南大學,未經湖南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910296276.1/1.html,轉載請聲明來源鉆瓜專利網。





