[發明專利]基于關系抽取及知識推理的藥物發現方法、裝置及設備有效
| 申請號: | 202010923911.7 | 申請日: | 2020-09-04 |
| 公開(公告)號: | CN112017735B | 公開(公告)日: | 2023-08-22 |
| 發明(設計)人: | 張圣;顧大中 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G16C20/70 | 分類號: | G16C20/70;G06F40/279 |
| 代理公司: | 深圳市明日今典知識產權代理事務所(普通合伙) 44343 | 代理人: | 王杰輝;曹勇 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 關系 抽取 知識 推理 藥物 發現 方法 裝置 設備 | ||
1.一種基于關系抽取及知識推理的藥物發現方法,其特征在于,包括:
在醫學資料庫中獲取包含物質-基因實體對或基因-疾病實體對的自然語句,對所述自然語句進行分詞處理和依存關系分析;
利用預先訓練的BERT模型對每一個詞進行word?embedding操作,得到詞向量e-wordi;
利用word2vec方法對每一個詞進行Denpendecy?embedding操作,得到依存向量e-depi;
利用公式ei=(e-wordi:e-depi),i=1,..n將每個詞的詞向量和依存向量串聯拼接起來得到每個詞的向量表示ei,其中n表示分詞后的詞的總數;
將向量(ei,...,en)輸入到Bi-LSTM層得到隱藏向量(h1,...,hn);
將Bi-LSTM層的輸出隱藏向量(h1,...,hn)進行Attention操作得到向量vector;其中,所述Attention操作的計算過程為:
vector=∑iαihi,i=1,...,n;
將向量vector通過全連接層得到輸出標簽y,具體公式為y=softmax(W*vector),其中W是參數,softmax是多分類任務的激活函數,y是物質-基因或基因-疾病實體對的關系類型;
根據物質-基因實體對的關系類型計算物質靶向基因的第一可能性得分;
根據基因-疾病實體對的關系類型計算基因作為疾病的靶向基因的第二可能性得分;
通過相同的基因,關聯得到物質-疾病實體對,根據所述第一可能性得分和所述第二可能性得分計算物質作為疾病的治療物質的第三可能性得分;
當所述第三可能性得分大于預設閾值時,則認為物質為疾病的治療藥物。
2.根據權利要求1所述的基于關系抽取及知識推理的藥物發現方法,其特征在于,所述物質-基因實體對的關系類型包括3種,包括:
第一物質-基因實體對關系類型,表示無法判斷物質-基因的關系或者是無關系;
第二物質-基因實體對關系類型,表示可以判斷物質靶向治療基因;
第三物質-基因實體對關系類型,表示可以判斷物質可以引起基因變化;
所述基因-疾病實體對的關系類型包括4種,包括:
第一基因-疾病實體對關系類型,表示無法判斷基因-疾病的關系或者是無關系;
第二基因-疾病實體對關系類型,表示基因是疾病的靶點基因;
第三基因-疾病實體對關系類型,表示基因或基因的變化會導致疾病的產生;
第四基因-疾病實體對關系類型,表示基因和疾病的病理機制有關聯。
3.根據權利要求1所述的基于關系抽取及知識推理的藥物發現方法,其特征在于,所述根據物質-基因實體對的關系類型計算物質靶向基因的第一可能性得分的步驟包括:
統計抽取到的物質-基因實體對的不同關系類型的實體對數量;
利用公式
計算物質靶向基因的第一可能性得分,其中,α0、α1、α2是對應的3種物質-基因實體對關系類型的加權系數,nums0、nums1、nums2分別對應3種物質-基因實體對關系類型的實體對的數量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010923911.7/1.html,轉載請聲明來源鉆瓜專利網。





