[發明專利]一種基于深度學習的化合物參數自動提取方法在審
| 申請號: | 201811330759.0 | 申請日: | 2018-11-09 |
| 公開(公告)號: | CN111180019A | 公開(公告)日: | 2020-05-19 |
| 發明(設計)人: | 張政 | 申請(專利權)人: | 上海云貴信息科技有限公司 |
| 主分類號: | G16C20/40 | 分類號: | G16C20/40 |
| 代理公司: | 上海宏京知識產權代理事務所(普通合伙) 31297 | 代理人: | 鄧文武 |
| 地址: | 201306 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 化合物 參數 自動 提取 方法 | ||
本發明提供一種基于深度學習的化合物參數自動提取方法,涉及化合物參數自動提取領域,所述方法包括以下步驟:步驟1:收集含有藥物化合物信息的文本和含有標定信息的標簽作為數據集,并將數據集分成訓練集和驗證集;步驟2:對訓練集和驗證集文本和標簽進行嵌入處理后,輸入卷積神經網絡進行模型訓練和優化,得到命名實體模型;步驟3:輸入含有藥物化合物信息的待提取文本,對文本進行預處理后輸入命名實體模型進行信息提取,并將信息進行相關性關聯后存儲。本方法解決了現有技術中化合物信息提取需要制定大量的規則,耗時耗力的問題。
技術領域
本發明涉及化合物參數自動提取領域,尤其涉及一種基于深度學習的化合物參數自動提取方法。
背景技術
藥物化合物的物理化學性質是指在動物或者人體內的吸收,消化,清除參數,是藥物研究的重要信息,能夠用于構建生理藥代動力學模型,預測藥物在人體的藥物代謝過程,輔助藥物研發。
目前,藥物化合物的信息主要存在于發表的學術論文或者FDA新藥申請材料中,但由于作者的寫作習慣不同,這些化合物的數據形式也各不相同。現有數據庫系統如:Drug3D,DrugBank,SuperDrug等整理了部分藥物化合物相關的參數,其中參數的整理都是通過手工整理方式獲取。
近年來,隨著NLP技術尤其是命名實體識別(named entity recognition)技術的發展,給化合物信息提取帶來了很多改變,尤其是CHEMDNER corpus數據集的發布極大地推動該領域的發展,然而大多的命名實體識別系統都是通過人工制定規則,提取特征,訓練模型進而實現化合物參數的提取。此化合物參數的提取方法存在以下缺點:
1.通過此手動方法進行參數的提取需要大量人力物力。
2.通過傳統命名實體識別技術,由于化合物參數的形態各異,需要制定大量的規則,耗時耗力。
發明內容
鑒于以上所述現有技術的缺點,本發明的目的在于提供一種基于深度學習的化合物參數自動提取方法,用于解決現有技術中化合物參數提取需要制定大量的規則,耗時耗力的問題。
本發明提供一種基于深度學習的化合物參數自動提取方法,所述方法包括以下步驟:
步驟1:收集含有藥物化合物信息的文本和含有標定信息的標簽作為數據集,并將數據集分成訓練集和驗證集;
步驟2:對訓練集和驗證集文本和標簽進行嵌入處理后,輸入卷積神經網絡進行模型訓練和優化,得到命名實體模型;
步驟3:輸入含有藥物化合物信息的待提取文本,對文本進行預處理后輸入命名實體模型進行信息提取,并將信息進行相關性關聯后存儲。
進一步的,所述文本支持的格式包括PDF,XML,HTML。
進一步的,所述卷積神經網絡模型包括兩個卷積神經網絡層,三個雙向門控單元網絡層,兩個S形全連接網絡層,一個時間分布累乘器。
進一步的,所述模型訓練和優化具體步驟如下:
步驟2.1:將訓練集中的文本嵌入處理后的文本和詞嵌入處理后的標簽輸入卷積神經網絡模型進行模型訓練,得到命名實體模型;
步驟2.2:將驗證集中的文本嵌入處理后的文本和詞嵌入處理后的標簽輸入命名實體模型,并結合Adam 優化器進行模型優化,得到最終的命名實體模型。
進一步的,所述步驟3具體步驟如下:
步驟3.1:將含有藥物化合物信息的待提取文本轉化為字節流;
步驟3.2:將字節流輸入最終的命名實體模型進行信息提取;
步驟3.3:將提取信息進行相關性關聯處理后保存于數據庫中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海云貴信息科技有限公司,未經上海云貴信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811330759.0/2.html,轉載請聲明來源鉆瓜專利網。





