[發明專利]一種基于深度學習的化合物參數自動提取方法在審
| 申請號: | 201811330759.0 | 申請日: | 2018-11-09 |
| 公開(公告)號: | CN111180019A | 公開(公告)日: | 2020-05-19 |
| 發明(設計)人: | 張政 | 申請(專利權)人: | 上海云貴信息科技有限公司 |
| 主分類號: | G16C20/40 | 分類號: | G16C20/40 |
| 代理公司: | 上海宏京知識產權代理事務所(普通合伙) 31297 | 代理人: | 鄧文武 |
| 地址: | 201306 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 化合物 參數 自動 提取 方法 | ||
1.一種基于深度學習的化合物參數自動提取方法,其特征在于,所述方法包括以下步驟:
步驟1:收集含有藥物化合物信息的文本和含有標定信息的標簽作為數據集,并將數據集分成訓練集和驗證集;
步驟2:對訓練集和驗證集文本和標簽進行嵌入處理后,輸入卷積神經網絡進行模型訓練和優化,得到命名實體模型;
步驟3:輸入含有藥物化合物信息的待提取文本,對文本進行預處理后輸入命名實體模型進行信息提取,并將信息進行相關性關聯后存儲。
2.根據權利要求1所述的基于深度學習的化合物參數自動提取方法,其特征在于:所述文本支持的格式包括PDF,XML,HTML。
3.根據權利要求1所述的基于深度學習的化合物參數自動提取方法,其特征在于:所述卷積神經網絡模型包括兩個卷積神經網絡層,三個雙向門控單元網絡層,兩個S形全連接網絡層,一個時間分布累乘器。
4.根據權利要求1所述的基于深度學習的化合物參數自動提取方法,其特征在于:所述模型訓練和優化具體步驟如下:
步驟2.1:將訓練集中的文本嵌入處理后的文本和詞嵌入處理后的標簽輸入卷積神經網絡模型進行模型訓練,得到命名實體模型;
步驟2.2:將驗證集中的文本嵌入處理后的文本和詞嵌入處理后的標簽輸入命名實體模型,并結合Adam 優化器進行模型優化,得到最終的命名實體模型。
5.根據權利要求1所述的基于深度學習的化合物參數自動提取方法,其特征在于:所述步驟3具體步驟如下:
步驟3.1:將含有藥物化合物信息的待提取文本轉化為字節流;
步驟3.2:將字節流輸入最終的命名實體模型進行信息提取;
步驟3.3:將提取信息進行相關性關聯處理后保存于數據庫中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海云貴信息科技有限公司,未經上海云貴信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811330759.0/1.html,轉載請聲明來源鉆瓜專利網。





