[發明專利]一種基于深度學習的藥物關系抽取方法有效
| 申請號: | 202010811218.0 | 申請日: | 2020-08-13 |
| 公開(公告)號: | CN111949792B | 公開(公告)日: | 2022-05-31 |
| 發明(設計)人: | 劉勇國;何家歡;楊尚明;李巧勤 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/211;G06K9/62;G16C20/50 |
| 代理公司: | 北京正華智誠專利代理事務所(普通合伙) 11870 | 代理人: | 李林合 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 藥物 關系 抽取 方法 | ||
本發明公開了一種基于深度學習的藥物關系抽取方法,本發明利用RDKit工具,將藥物分子式轉換為分子圖結構,再將藥物分子的特征進行了表達,同時提取樣本的文本特征,將藥物分子特征和樣本的文本特征進行了結合后,再利用全連接層softmax對藥物關系進行分類,采用了句子中藥物的理化性質,可以提高抽取準確率,解決現有方法難以覆蓋所有文本場景且過分依賴外部自然語言處理工具的問題。
技術領域
本發明涉及藥物化學實體關系抽取領域,具體涉及一種基于深度學習的藥物關系抽取方法。
背景技術
藥物化學實體關系抽取是指從文本中自動提取藥物實體之間的關系,能夠輔助藥物研究人員進行新藥研發,輔助醫生為病人制定合理的治療方案,也是構建藥物化學知識數據庫的基礎。現有藥化實體相互作用關系抽取方法主要有兩類:基于規則的方法和基于有監督機器學習的方法。
研究早期大多采用基于規則的方法,因為早期的藥物關系提取缺少權威的已標注語料庫。該類方法中表達作用關系的語句結構是固定有限的,即大多數的具有作用關系描述的句子之間具有相同或者相似的語句結構。該類方法對語句進行語法分析,檢測語句的語法結構,根據藥劑師制定的描述規則,從短句中抽取相互作用的藥對,并進行藥物對關系的分類。
自DDIExtraction2011與DDIExtraction2013評測開始,基于有監督機器學習方法被用于藥化實體相互作用關系抽取,其中最主要的是基于特征的方法,這類方法將關系抽取看作一個分類問題,用各種不同類型的特征顯式地將候選關系實例表示成一個特征向量,然后使用有監督的機器學習模型將候選關系實例分類。
基于規則的方法只對簡單短句具有較好的抽取效果,因為對復雜的長句難以制定合適的規則。然而藥化領域文獻的句子卻又多為復雜長句,其中很多描敘句子都包含兩個以上的藥物,而且句子中包含大量同位語、并列結構等復雜結構。所以在當前大量數據的情況下,基于規則的方法準確率較低。制定規則耗時耗力且需要專業領域人員參與;此外,人工編制的規則很難覆蓋所有的應用文本場景。基于有監督機器學習的方法具有較好的性能與可移植性,但這類方法依賴于外部的自然語言處理工具,如果外部工具出錯會造成錯誤傳播,影響性能。
發明內容
針對現有技術中的上述不足,本發明提供的一種基于深度學習的藥物關系抽取方法解決了現有方法難以覆蓋所有文本場景且過分依賴外部自然語言處理工具的問題。
為了達到上述發明目的,本發明采用的技術方案為:
提供一種基于深度學習的藥物關系抽取方法,其包括以下步驟:
S1、獲取與藥物相關的文獻,將文獻的文本內容以句子為基本單位分句,將每一句作為一個初始樣本;
S2、保留包含兩個及以上藥物名詞的初始樣本,并對保留的樣本進行標注,得到標注樣本;
S3、在標注樣本中根據詞與藥物的位置關系,為每個詞增加一個相對藥物的位置屬性,得到與每個詞對應的位置特征向量;
S4、獲取并將所有藥物分子SMILES表達式轉換為圖結構,獲取圖結構中每個藥物的藥物分子特征向量;
S5、將文本中的單詞表示為向量,采用向量代替對應的單詞,進而將每個句子向量化;
S6、將向量化的句子輸入深度學習網絡,得到該句子對應的文本特征向量;
S7、將每個句子對應的文本特征向量和藥物分子特征向量進行串聯,得到與每個句子相對應的整體特征向量;
S8、將與每個句子相對應的整體特征向量輸入全連接層,得到非線性表示的向量;
S9、采用softmax函數對非線性表示的向量進行分類,得到每個分類的概率,將概率最高的類作為識別得到的藥對關系,完成藥物關系抽取。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010811218.0/2.html,轉載請聲明來源鉆瓜專利網。





