[發明專利]一種基于深度學習的生物醫學命名實體識別和蛋白質交互關系抽取在線方法有效
| 申請號: | 201410453911.X | 申請日: | 2014-09-09 |
| 公開(公告)號: | CN104298651B | 公開(公告)日: | 2017-02-22 |
| 發明(設計)人: | 李麗雙;蔣振超 | 申請(專利權)人: | 大連理工大學 |
| 主分類號: | G06F17/20 | 分類號: | G06F17/20;G06F17/30 |
| 代理公司: | 大連理工大學專利中心21200 | 代理人: | 梅洪玉 |
| 地址: | 116024 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 生物醫學 命名 實體 識別 蛋白質 交互 關系 抽取 在線 方法 | ||
1.一種基于深度學習的生物醫學命名實體識別和蛋白質交互關系抽取在線系統,其特征包括如下步驟:
(一)構建基于滑動窗口的NER輸入向量
如下表1-1所示,對句長為N句子進行實體識別時,首先利用大小為M的滑動窗口依次構造輸入向量,將窗口內所有詞向量的連接作為當前詞的向量;當窗口M取3時,對于詞w1而言,選用<None>,w1,w2對應的向量首尾相接作為w1的輸入向量;其中<None>是為填補首位位置窗口空白設計的補位符,對應的向量為0向量;而每個單詞的向量則通過word2vec工具所提供的Skip-gram語言模型在大規模未標記語料上訓練得到;
表1-1
(二)構建基于DBN全局優化的NER框架
NER看作是序列標注,描述為:對于給定觀測序列o1:T,對其賦予特定的標記序列l1:T,采用經典的BIO標注集,即lt∈{B,I,O},t表示序列中第t個位置;經第一步操作后,每一個單詞的輸入向量按照順序送入基于DBN全局優化的NER框架;一個n層的模型,該框架分為預訓練和基于全局優化的微調兩個階段:
預訓練階段,每一層按照高斯-伯努利RBM的自由能公式,v節點取值為實數;
條件概率為:????
RBM的訓練目標最大化v的邊緣概率的期望,即在訓練過程當中w權重的更新Δwij=<vihj>data-<vihj>model,即訓練數據的觀察期望減去模型分布的期望;后者;由Gibbs采樣獲得;
全局優化的微調階段,其中v為輸入層,前n層各參數由預訓練階段獲得;將v記作h0;為了實現全局范圍的優化,引入了一個轉移特征,相應的全局最優的條件概率為:
表1-2?系統流程
其中γij是對應的需要進行訓練的系數;要計算的條件概率p(l1:T|v1:T)是在整個句子的范圍內進行全局優化的,而不是局部優化后再做出調整;神經網絡的訓練,即后向傳播算法,分成三個部分:λ的學習,γ的學習,權重w的學習;偏導公式分別如下:
其中,每一層的權重w;通過鏈法則進行逐級求偏導,以上只給出對第n層w求偏導的公式;
(三)PPI特征提取
其中,抽取了四種常見的PPI特征:
1、蛋白質特征(P):一個PPI實例中涉及到的兩個蛋白質名;
2、上下文特征(C):蛋白質周圍的詞,在window中的詞(不包含蛋白質本身)被視為context特征;
3、中間詞特征(B):在蛋白質之間的詞;
4、句子特征(S):整個句子;
表2-3?特征提取
(四)向量組合
由于上述特征的長度不固定,而算法的輸入向量是大小固定的,所以需要將原始特征變成大小固定的向量;采取向量組合的方法完成這一功能,具體如下:
max:取n個向量每個維度的最大值;
min:取n個向量每個維度的最小值;
mean:n個向量相加后除以n;
sum:n個向量相加;
表3-4?向量組合
(五)CNN與L2-SVM相結合的蛋白質關系抽取
表4-5?蛋白質關系抽取
神經網絡與SVM的結合方式,頂層不再是softmax,而是L2-SVM;將SVM最大間隔的思想與深度神經網絡結合起來,在保證特征優化的同時擁有更強的分類能力;SVM帶約束的目標優化函數為:
其中εn是松弛變量,t即target,即實例x的標記,C是懲罰因子;通過引入拉格朗日乘子,;將上述目標函數表示為不帶約束的目標函數,即L2-SVM的損失函數,記作:
對第n層hn求偏導公式如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連理工大學,未經大連理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410453911.X/1.html,轉載請聲明來源鉆瓜專利網。





