[發明專利]一種基于知識圖譜的藥物關系抽取方法有效
| 申請號: | 202210166924.3 | 申請日: | 2022-02-23 |
| 公開(公告)號: | CN114582443B | 公開(公告)日: | 2023-08-18 |
| 發明(設計)人: | 孫霞;金鑫;陳嘉誠;卞婷;王明磊 | 申請(專利權)人: | 西北大學 |
| 主分類號: | G16C20/90 | 分類號: | G16C20/90;G16C20/70;G06F16/33;G06F16/35;G06F16/36;G06F18/241;G06N3/0464;G06N3/048;G06N3/08;G06F40/295;G06F40/30 |
| 代理公司: | 西安恒泰知識產權代理事務所 61216 | 代理人: | 李鄭建 |
| 地址: | 710069 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 知識 圖譜 藥物 關系 抽取 方法 | ||
1.一種基于知識圖譜的藥物關系抽取方法,其特征在于,包括以下步驟:
步驟S1:數據預處理
將原始的藥物數據集進行處理,并按以下三種規則進行:
規則1:一個實例中是否包含相同藥物名;
規則2:兩種藥物之間是否有一個藥物為另一個藥物的子類;
規則3:兩種藥物之間是否存在關鍵路徑;
根據上述三種規則去除掉負例數據實例,得到預處理后的數據集;
步驟S2:語義特征表示
所得到預處理后的數據集,將這些數據實例,依次送入PubmedBERT中獲取語義特征,同時使用注意力機制來獲取每個實例的語義特征,這些語義特征是考慮了不同語法特征的綜合語義特征;
步驟S3:藥物關系知識圖譜構建
將原本藥物關系抽取數據集融入到DrugBank數據庫之中,形成需要的藥物關系知識圖譜;具體實現方法是:
首先將原始的藥物關系數據集整理為知識圖譜需要的三元組格式,形成知識圖譜{KG_DDIE};然后,從DrugBank數據庫中抽取出藥物關系的三元組集合,形成知識圖譜{KG_DrugBank};最后,將上述兩個三元組集合融合,形成最終需要的藥物關系知識圖譜{KG_DRUG};
步驟S4:知識嵌入特征表示
將得到的藥物關系知識圖譜,使用RotatE知識嵌入模型,得到知識嵌入特征;
步驟S5:關鍵路徑特征表示
使用Stanza工具獲取兩個藥物實體間的關鍵路徑信息,在此基礎之上,獲取原始藥物描述文本的關鍵路徑特征;具體實現方法是:
首先使用Stanza工具,處理數據預處理之后得到的數據集,得到分詞之后的文本數據,之后標記該實例中的藥物實體Drug1和Drug2;然后使用Stanza工具獲取Drug1和Drug2的關鍵路徑信息,設置關鍵詞為1,非關鍵詞為0,即得到該實例文本中兩個藥物實體之間的關鍵路徑信息;
步驟S6:神經網絡分類
將得到的語義特征、關鍵路徑特征以及知識嵌入特征拼接之后,能夠得到包含不同特征的向量集合,接著將這些向量平均化之后送入到多層感知機中進行分類,將多層感知機分類的結果送入到Softmax中,進行歸一化;
最后將得到的向量進行五分類,得到最終的分類結果;同時選擇使用基于知識嵌入的多分類Focal?Loss損失函數訓練神經網絡,該損失函數能夠有效的緩解數據分布不均衡以及神經網絡錯分的問題,使神經網絡模型的最終分類結果取得較高值;
步驟S7:藥物關系查詢原型系統設計
通過前述步驟抽取出需要的藥物關系,接著將抽取出的藥物關系存儲至數據庫之中,然后,設計藥物關系抽取原型系統,以方便用戶查詢相關的藥物信息;該藥物關系查詢原型系統包括用戶注冊、用戶登錄、藥物關系查詢以及藥物信息管理模塊。
2.如權利要求1所述的方法,其特征在于:所述步驟S1中,首先將原始數據集處理,形成所有藥物實體之間相互作用的數據集;對文本中包含的藥物實體進行標記,分別標記為Drug0,Drug1,Drug2;其中,Drug1和Drug2表示當前有藥物相互作用的兩種藥物,Drug0表示非當前實例所考慮的藥物實體;接著根據步驟S1中的前兩種規則,將原始數據集進行過濾,去除一部分負例數據;
同時,通過Stanza工具不能夠得到藥物描述文本中兩個藥物實體之間的關鍵路徑時,則認為這樣的數據實例也是負例,根據步驟S1中的規則三將其過濾掉,形成最終需要處理的數據集。
3.權利要求1或2所述方法構建的藥物關系分類模型,其特征在于,包括依次連接的數據預處理模塊、語義特征表示模塊、藥物關系知識圖譜構建模塊、知識嵌入特征表示模塊、關鍵路徑特征表示模塊、神經網絡分類模塊和藥物關系查詢原型系統設計模塊。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西北大學,未經西北大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210166924.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種簡易單軌吊式支架樣架
- 下一篇:用戶畫像唯一標識生成方法





