[發明專利]一種基于NPL的藥品名片自動提取方法在審
| 申請號: | 202010621850.9 | 申請日: | 2020-06-30 |
| 公開(公告)號: | CN111797624A | 公開(公告)日: | 2020-10-20 |
| 發明(設計)人: | 邵志宇;傅建強;黃艷;陳龍彪;蔡曉海;游建議;林志銘;李靈琦;伊麗 | 申請(專利權)人: | 廈門大學附屬第一醫院 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/242;G06F40/295;G06F40/30;G06K9/62;G06N3/04 |
| 代理公司: | 廈門市首創君合專利事務所有限公司 35204 | 代理人: | 張松亭 |
| 地址: | 361000 福*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 npl 藥品 名片 自動 提取 方法 | ||
1.一種基于NLP的藥品名片自動提取方法,包括:
步驟S1,對藥品說明書進行預處理,構造訓練集、驗證集和測試集;
步驟S2,加載訓練集和驗證集,進行數據封裝和數據讀取;
步驟S3,加載BERT模型的配置數據和模型特征進行目標模型的參數初始化過程,構建BERT-BILSTM-CRF模型,訓練BERT-BILSTM-CRF模型;
步驟S4,利用訓練好的BERT-BILSTM-CRF模型,加載測試集,對測試集數據預測輸出藥品名片字段內容。
2.根據權利要求1所述的一種基于NLP的藥品名片自動提取方法,其特征在于,所述步驟S1包括:
S11、將藥品說明書中內容按關鍵字分塊存儲于各個文本;
S12、將關鍵字相同的文本合并,構建數據集;
S13、根據BIO表示法對數據集標注數據,得到訓練集、驗證集和測試集;
S14、對訓練集、驗證集和測試集進行數據清洗。
3.根據權利要求2所述的一種基于NLP的藥品名片自動提取方法,其特征在于,所述的關鍵字包括藥品名稱、適應癥、用法用量、藥理作用、不良反應、注意事項和禁忌的至少兩種。
4.根據權利要求1所述的一種基于NLP的藥品名片自動提取方法,其特征在于,所述步驟S2包括:
S21、加載訓練集和驗證集,得到數據的輸入樣本,即樣本、樣本編碼和標簽;
S22、構造一個評估控制器;
S23、將所有輸入樣本封裝成為“tf_record格式”數據,作為模型數據輸入;
S24、讀取“tf_record格式”數據,組成批數據。
5.根據權利要求4所述的一種基于NLP的藥品名片自動提取方法,其特征在于,所述步驟S23中具體包括:建立標簽和編碼的映射詞典,并保存該詞典,對數據進行分詞,進行序列截斷,并在序列首尾加上分隔符CLS和SEP符號,結構化到數據的特性集對象中。
6.根據權利要求1所述的一種基于NLP的藥品名片自動提取方法,其特征在于,所述步驟S3包括:
S31、構建模型,加載BERT模型的配置數據和模型特征,獲取對應字的字向量;
S32、加載BILSTM-CRF模型對象,構造BERT-BILSTM-CRF模型;
S33、用評估控制器對訓練集進行訓練。
7.根據權利要求1所述的一種基于NLP的藥品名片自動提取方法,其特征在于,所述步驟S4包括:
S41、BERT-BILSTM-CRF模型參數,恢復模型;并加載標簽和編碼的映射詞典;
S42、將測試集文本數據進行分詞,并將字轉化為字向量,將標簽轉化為對應編碼,然后結構化到數據的特性集對象中;
S43、取得每個文本的輸入樣本中字的編碼、輸入掩碼、段編碼、標簽的編碼,并根據輸入樣本中字的編碼、輸入掩碼運行會話獲取當前預測的標簽編碼結果;
S44、根據加載的標簽和編碼映射詞典將編碼形式的結果轉化為真實序列標簽結果;
S45、根據真實序列標簽結果和輸入序列結合,獲取標注結果,輸出提取的藥品名片字段。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門大學附屬第一醫院,未經廈門大學附屬第一醫院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010621850.9/1.html,轉載請聲明來源鉆瓜專利網。





