[發明專利]基于變分自編碼器的藥物-疾病關聯預測方法有效
| 申請號: | 202110496613.9 | 申請日: | 2021-05-07 |
| 公開(公告)號: | CN113223655B | 公開(公告)日: | 2023-05-12 |
| 發明(設計)人: | 魚亮;陳生建 | 申請(專利權)人: | 西安電子科技大學 |
| 主分類號: | G16H20/10 | 分類號: | G16H20/10;G16B50/00;G16H50/70;G16H50/20 |
| 代理公司: | 陜西電子工業專利中心 61205 | 代理人: | 陳宏社;王品華 |
| 地址: | 710071*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 編碼器 藥物 疾病 關聯 預測 方法 | ||
1.一種基于變分自編碼器的藥物-疾病關聯預測方法,其特征在于,包括如下:
(1)構建藥物-疾病關聯矩陣A和疾病-藥物關聯矩陣B:
(1a)從數據庫中獲取與M種藥物S={S1,S2,...,Sm,...,SM}存在關聯的N種疾病T={T1,T2,...,Tn,...,TN}的K條藥物-疾病關聯數據E={E1,E2,...,Ek,...,EK},每種藥物Sm至少與一種疾病關聯,且每種疾病Tn至少與一種藥物關聯,其中,K≥1000,M≥100,N≥200,Sm表示第m種藥物,Tn表示第n種疾病,1≤m≤M,1≤n≤N,Ek表示第k條藥物-疾病關聯;
(1b)構建大小為M×N且第m行第n列元素Amn的值為0或1的藥物-疾病關聯矩陣A,并對A進行轉置,得到疾病-藥物關聯矩陣B,其中,Amn的值為0時表示Amn對應的第m種藥物和第n種疾病的關聯不在藥物-疾病關聯數據E中,Amn的值為1時表示Amn對應的第m種藥物和第n種疾病的關聯在藥物-疾病關聯數據E中;
(2)構建藥物特征矩陣C和疾病特征矩陣D:
(2a)從數據庫中獲取與M種藥物S={S1,S2,...,Sm,...,SM}存在關聯的P種基因G={G1,G2,...,Gp,...,GP}的Q條藥物-基因關聯數據R={R1,R2,...,Rq,...,RQ},每種藥物Sm至少與一種基因關聯,且每種基因Gp至少與一種藥物關聯;構建大小為M×P且第m行第p列元素C′mp的值為0或1的藥物-基因關聯矩陣C′,其中,C′mp的值為0時表示C′mp對應的第m種藥物和第p種基因的關聯不在藥物-基因關聯數據R中,C′mp的值為1時表示C′mp對應的第m種藥物和第p種基因的關聯在藥物-基因關聯數據R中,P≥200,Q≥1000,1≤m≤M,1≤p≤P,Gp表示第p種基因,Rq表示第q條藥物-基因關聯;
(2b)從數據庫中獲取與N種疾病T={T1,T2,...,Tn,...,TN}存在關聯的O種基因G={G1,G2,...,Go,...,GO}的J條疾病-基因關聯數據U={U1,U2,...,Uj,...,UJ},每種疾病Tn至少與一種基因關聯,且每種基因Go至少與一種疾病關聯;構建大小為N×O且第n行第o列元素D′no的值為0或1的疾病-基因關聯矩陣D′,其中,D′的值為0時表示D′no對應的第n種疾病和第o種基因的關聯不在疾病-基因關聯數據U中,D′的值為1時表示D′no對應的第n種疾病和第o種基因的關聯在疾病-基因關聯數據U中,O≥200,J≥1000,1≤n≤N,1≤o≤O,Uj表示第j條疾病-基因關聯;
(2c)對大小為M×P的C′和大小為N×O的D′分別進行降維,得到大小為M×V的藥物特征矩陣C和大小為N×W的疾病特征矩陣D,其中,C中的每一行為該行藥物的特征,D中的每一行為該行疾病的特征,1≤V≤P,1≤W≤O;
(3)搭建基于變分自編碼器的藥物-疾病關聯預測模型H:
(3a)搭建基于變分自編碼器的藥物-疾病關聯預測模型H結構:
構建包括并行排列的第一變分自編碼器f1和第二變分自編碼器f2的藥物-疾病關聯預測模型H,其中,第一變分自編碼器f1采用包括順次連接的第一編碼器fe1、第一隱變量層fz1和第一解碼器fd1的神經網絡,fe1包括多個全連接層和一個均值方差層,fz1的輸出端連接有第一數據融合模塊,fd1包括多個全連接層和一個sigmoid激活函數輸出層,f1的權值參數為第二變分自編碼器f2包括順次連接的第二編碼器fe2、第二隱變量層fz2和第二解碼器fd2,fe2包括多個全連接層和一個均值方差層,fz2的輸出端連接有第二數據融合模塊,fd2包括多個全連接層和一個sigmoid激活函數輸出層,f2的權值參數為
(3b)定義第一變分自編碼器f1的損失函數Loss1和第二變分自編碼器f2的損失函數Loss2:
其中,x表示f1的輸入數據,表示f1的預測結果,Lre表示f1的重構損失,POx表示x中值為1的元素集合,POx={xi|xi=1,1≤i≤N},NPx表示x中值為0的元素集合,NPx={xj|xj=0,1≤j≤N},xi和xj分別表示x的第i個和第j個元素,β表示非正例損失衰減因子,非正例表示當前關聯不在已知關聯中,β∈[0,1];表示均值為μx方差為的正態分布,N(0,1)表示標準正太分布,表示和N(0,1)的相對熵,μx和δx分別表示f1輸入為x時fe1的輸出,α表示相對熵損失衰減因子,α∈[0,1];y表示f2的輸入數據,表示f2的預測結果,
(4)對基于變分自編碼器的藥物-疾病關聯預測模型H進行迭代訓練:
(4a)初始化迭代次數為i,最大迭代次數為I,I≥300,第i次迭代第一變分自編碼器f1的權值參數為和第二變分自編碼器f2的權值參數為并令i=0,
(4b)將藥物-疾病關聯矩陣A和藥物特征C作為藥物-疾病關聯預測模型H中的第一變分自編碼器f1的輸入,第一編碼器fe1對A進行逐行編碼,第一隱變量層fz1對fe1編碼的均值μf1_i和方差所構成的正態分布進行采樣,第一數據融合模塊對fz1所采集的維度為V的隱變量與藥物特征C中對應行的藥物c進行相加融合,第一解碼器fd1對第一數據融合模塊的融合結果進行解碼,得到預測的藥物-疾病關聯矩陣
(4c)將疾病-藥物關聯矩陣B和疾病特征D作為藥物-疾病關聯預測模型H中的第二變分自編碼器f2的輸入,第二編碼器fe2對B進行逐行編碼,第二隱變量層fz2對fe2編碼的均值和方差所構成的正太分布進行采樣,第二數據融合模塊對fz2所采集的維度為W的隱變量與藥物特征D中對應行的藥物d進行相加融合,第二解碼器fd2對第二數據融合模塊的融合結果進行解碼,得到預測的疾病-藥物關聯矩陣
(4d)采用損失函數Loss1,并通過A和計算H中的第一變分自編碼器f1的損失值L1i,同時采用損失函數Loss2并通過B和計算H中的第二變分自編碼器f2的損失值L2i;
(4e)采用反向傳播方法,并通過L1i計算f1的參數梯度,然后采用梯度下降算法通過f1的參數梯度對f1的權值參數進行更新;同時采用反向傳播方法,并通過L2i計算f2的參數梯度,然后采用梯度下降算法通過f2的參數梯度對f2的權值參數進行更新;
(4f)判斷i≥I是否成立,若是,得到訓練好的藥物-疾病關聯預測模型H′,否則,令i=i+1,并執行步驟(4b);
(5)獲取藥物-疾病關聯預測結果Y:
將藥物-疾病關聯矩陣A和藥物特征C作為訓練好的藥物-疾病關聯預測模型H′中的第一變分自編碼器f1的輸入進行前向傳播,得到f1預測的藥物-疾病關聯集Y1,同時將疾病-藥物關聯矩陣B和疾病特征D作為訓練好的藥物-疾病關聯預測模型H′中的第二變分自編碼器f2的輸入進行前向傳播,得到f2預測的藥物-疾病關聯集Y2,Y1與Y2的交集Y=Y1∩Y2即為藥物-疾病關聯預測結果,其中∩表示交集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安電子科技大學,未經西安電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110496613.9/1.html,轉載請聲明來源鉆瓜專利網。





