[發明專利]一種基于知識圖譜的藥物關系抽取方法有效
| 申請號: | 202210166924.3 | 申請日: | 2022-02-23 |
| 公開(公告)號: | CN114582443B | 公開(公告)日: | 2023-08-18 |
| 發明(設計)人: | 孫霞;金鑫;陳嘉誠;卞婷;王明磊 | 申請(專利權)人: | 西北大學 |
| 主分類號: | G16C20/90 | 分類號: | G16C20/90;G16C20/70;G06F16/33;G06F16/35;G06F16/36;G06F18/241;G06N3/0464;G06N3/048;G06N3/08;G06F40/295;G06F40/30 |
| 代理公司: | 西安恒泰知識產權代理事務所 61216 | 代理人: | 李鄭建 |
| 地址: | 710069 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 知識 圖譜 藥物 關系 抽取 方法 | ||
本發明涉及一種基于知識圖譜的藥物關系抽取方法,通過PubmedBERT并結合注意力獲取藥物描述的語義特征,用藥物關系抽取數據集和DrugBank數據庫構建藥物關系知識圖譜,通過RotatE模型得到藥物的知識嵌入特征;同時獲取藥物關鍵路徑特征;最后組合藥物描述的語義特征、知識嵌入特征和關鍵路徑特征送入多層感知機中分類,同時使用基于知識嵌入的多分類FocalLoss損失函數訓練神經網絡分類模型,并根據分類模型結果計算分類準確率。通過使用注意力機制獲取更符合藥物關系抽取任務的語義特征,同時使用知識圖譜嵌入,使網絡模型具有更好的可解釋性,最后通過改進的多分類Focal?loss損失函數,有效緩解了數據集分布不均衡問題,使最終分類結果有所提高。
技術領域
本發明涉及自然語言處理、關系抽取和計算生物醫學等技術領域,具體而言,具體涉及一種基于知識圖譜和KE-MFL?Loss的藥物關系抽取方法。
背景技術
藥物在我們的日常生活中具有重要的作用,能夠幫助我們維護身體的健康。當我們同時服用兩種以上的藥物時,藥物之間會可能會發生拮抗作用,而藥物之間拮抗作用會危害我們的身體健康,嚴重情況下,會危及我們的生命安全。因此,需要及時的獲悉兩種藥物之間是否會產生拮抗作用,是否會對我們的生命健康產生危害。
目前,已經存在一些藥物關系查詢數據庫,如DrugBank和PharmGKB等。但是這些數據庫的內容均是由人工來維護的,數據更新不及時而且要耗費大量的人力物力。所以,自動的從海量的生物醫學文獻中抽取藥物之間關系(Drug-drug?Interaction?Extraction,DDIE)的需求應運而生,而當前主要使用的便是神經網絡的方法。
神經網絡模型方法主要步驟是:使用海量的數據訓練出一個神經網絡模型,該模型能夠學習到數據中的一些特征,然后使用該訓練好的模型來預測新的藥物之間關系。但神經網絡由于其黑盒特性,對其預測結果往往沒有較好的可解釋性。
目前經常使用的藥物關系抽取數據集是SemEval?2013年一個共享任務所公開的數據集,即DDIE?2013。但該數據集的正負例分布極不均衡,其中負例占比更是超過了80%。同時,該數據集只提供了藥物相互作用關系的描述文本,所包含的知識內容比較有限,不能夠提供更多的外部知識,導致網絡模型分類結果不準確。
綜上所述,可以看出現有的神經網絡分類方法中,主要存在數據集分布不均衡,以及包含外部知識較少的問題,進而導致了現有模型分類不準確的結果。
發明內容
針對于目前藥物關系抽取領域中,數據集包含的知識有限以及數據集分布不均衡等缺陷或者不足,本發明的目的在于,提供一種基于知識圖譜的藥物關系抽取方法,該方法使用基于知識圖譜的神經網絡模型結構來補充外部知識,使用基于知識嵌入的多分類Focal?Loss損失函數來緩解數據分布不均衡及樣例錯分的問題,然后進行藥物關系的分類。
為了實現上述任務,本發明采用如下的技術解決方案予以實現:
2、一種基于知識圖譜的藥物關系抽取方法,其特征在于,包括以下步驟:
步驟S1:數據預處理
將原始的藥物數據集進行處理,并按以下三種規則進行:
規則1:一個實例中是否包含相同藥物名;
規則2:兩種藥物之間是否有一個藥物為另一個藥物的子類;
規則3:兩種藥物之間是否存在關鍵路徑;
根據上述三種規則去除掉負例數據實例,得到預處理后的數據集;
步驟S2:語義特征表示
所得到預處理后的數據集,將這些數據實例,依次送入PubmedBERT中獲取語義特征,同時使用注意力機制來獲取每個實例的語義特征,這些語義特征是考慮了不同語法特征的綜合語義特征;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西北大學,未經西北大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210166924.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種簡易單軌吊式支架樣架
- 下一篇:用戶畫像唯一標識生成方法





