[發明專利]一種基于深度學習的藥物關系抽取方法有效
| 申請號: | 202010811218.0 | 申請日: | 2020-08-13 |
| 公開(公告)號: | CN111949792B | 公開(公告)日: | 2022-05-31 |
| 發明(設計)人: | 劉勇國;何家歡;楊尚明;李巧勤 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/211;G06K9/62;G16C20/50 |
| 代理公司: | 北京正華智誠專利代理事務所(普通合伙) 11870 | 代理人: | 李林合 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 藥物 關系 抽取 方法 | ||
1.一種基于深度學習的藥物關系抽取方法,其特征在于,包括以下步驟:
S1、獲取與藥物相關的文獻,將文獻的文本內容以句子為基本單位分句,將每一句作為一個初始樣本;
S2、保留包含兩個及以上藥物名詞的初始樣本,并對保留的樣本進行標注,得到標注樣本;
S3、在標注樣本中根據詞與藥物的位置關系,為每個詞增加一個相對藥物的位置屬性,得到與每個詞對應的位置特征向量;
S4、獲取并將所有藥物分子SMILES表達式轉換為圖結構,獲取圖結構中每個藥物的藥物分子特征向量;
S5、將文本中的單詞表示為向量,采用向量代替對應的單詞,進而將每個句子向量化;
S6、將向量化的句子輸入深度學習網絡,得到該句子對應的文本特征向量;
S7、將每個句子對應的文本特征向量和藥物分子特征向量進行串聯,得到與每個句子相對應的整體特征向量;
S8、將與每個句子相對應的整體特征向量輸入全連接層,得到非線性表示的向量;
S9、采用softmax函數對非線性表示的向量進行分類,得到每個分類的概率,將概率最高的類作為識別得到的藥對關系,完成藥物關系抽取。
2.根據權利要求1所述的基于深度學習的藥物關系抽取方法,其特征在于,所述步驟S2中對保留的樣本進行標注,得到標注樣本的具體方法為:
根據DDIExtraction2013挑戰規則,將標簽分為5類,分別是:建議、作用、藥物機制、正向和無關系。
3.根據權利要求1所述的基于深度學習的藥物關系抽取方法,其特征在于,所述步驟S3的具體方法為:
在標注樣本中獲取每個詞與藥物的位置關系,建立元素個數與藥物數量相等的向量,若詞在第n個藥物之前m個位置,則將向量中第n個元素的數值設置為m;若詞在第n個藥物之后m個位置,則將向量中第n個元素的數值設置為-m,遍歷每個藥物,得到與該詞對應的位置特征向量,進而得到與每個詞對應的位置特征向量。
4.根據權利要求1所述的基于深度學習的藥物關系抽取方法,其特征在于,所述步驟S4的具體方法包括以下子步驟:
S4-1、從數據庫DrugBank中獲取所有藥物分子SMILES表達式;
S4-2、通過RDKit工具,以藥物的每個原子作為節點,原子與原子之間的元素鍵作為邊,將藥物分子SMILES表達式轉換為圖結構;
S4-3、將圖結構中所有元素鍵及原子隨機初始化為一個向量,根據公式:
獲取第v個原子及元素鍵在第t次迭代后的向量表示其中σ(·)為sigmod激活函數;Ht-1為參數矩陣;為第v個原子及元素鍵在第t-1次迭代后的向量表示;表示第w個原子及元素鍵在第t-1次迭代后的向量表示;N(v)表示第v個原子在圖結構中相鄰的原子及元素鍵的集合;
S4-4、根據公式:
獲取第v個原子所對應的藥物的藥物分子特征向量,進而得到圖結構中每個藥物的藥物分子特征向量;其中softmax(·)為softmax函數;Wt為參數矩陣。
5.根據權利要求1所述的基于深度學習的藥物關系抽取方法,其特征在于,所述步驟S5的具體方法為:
采用word2vec模型對文本內容進行訓練,將文本中的單詞表示為向量,按照單詞的前后位置關系將每個向量作為句子向量的元素,得到表示每個句子的向量,進而將每個句子向量化。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010811218.0/1.html,轉載請聲明來源鉆瓜專利網。





