[發(fā)明專利]一種基于NPL的藥品名片自動提取方法在審
| 申請?zhí)枺?/td> | 202010621850.9 | 申請日: | 2020-06-30 |
| 公開(公告)號: | CN111797624A | 公開(公告)日: | 2020-10-20 |
| 發(fā)明(設(shè)計)人: | 邵志宇;傅建強;黃艷;陳龍彪;蔡曉海;游建議;林志銘;李靈琦;伊麗 | 申請(專利權(quán))人: | 廈門大學附屬第一醫(yī)院 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/242;G06F40/295;G06F40/30;G06K9/62;G06N3/04 |
| 代理公司: | 廈門市首創(chuàng)君合專利事務所有限公司 35204 | 代理人: | 張松亭 |
| 地址: | 361000 福*** | 國省代碼: | 福建;35 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 npl 藥品 名片 自動 提取 方法 | ||
本發(fā)明公開了一種基于NLP的藥品名片自動提取方法,方法具體包括如下步驟:步驟S1,對藥品說明書進行預處理,構(gòu)造訓練集、驗證集和測試集;步驟S2,加載訓練集和驗證集,進行數(shù)據(jù)封裝和數(shù)據(jù)讀取;步驟S3,加載BERT模型的配置數(shù)據(jù)和模型特征進行目標模型的參數(shù)初始化過程,構(gòu)建BERT?BILSTM?CRF模型,訓練BERT?BILSTM?CRF模型;步驟S4,利用訓練好的BERT?BILSTM?CRF模型,加載測試集,對測試集數(shù)據(jù)預測輸出藥品名片字段內(nèi)容。本發(fā)明提供的基于NLP的藥品名片自動提取方法,有效提高提取效率和準確率,極大地減少人力成本。
技術(shù)領(lǐng)域
本發(fā)明涉及一種信息處理領(lǐng)域,特別是涉及一種基于NPL的藥品名片自動提取方法。
背景技術(shù)
藥品說明書是載明藥品重要信息的法定文件,是選用藥品的法定指南,是藥品的使用規(guī)范和藥品信息的基本來源,是醫(yī)生、藥師、護師和病人治療用藥時的科學依據(jù),最具醫(yī)療權(quán)威和法律效應,且藥品說明書包含藥品的安全性和有效性等基本科學信息。藥品名片則是以藥品說明書為底層數(shù)據(jù)庫提取的藥品知識名片,是認識藥品最快有效的方法。
隨著國家對互聯(lián)網(wǎng)科技的重視,醫(yī)院的藥品維護系統(tǒng)已進入智能時代,在醫(yī)院內(nèi)部積攢了海量的藥品說明書。這些藥品說明書中包含了藥品的成份與性狀,用法用量,禁忌,接種對象、藥理作用、適應癥和注意事項等項內(nèi)容。藥品名片的構(gòu)建維護顯得至關(guān)重要。
近年來深度學習發(fā)展迅速,在語音識別、圖像處理、自然語言處理等領(lǐng)域都取得了巨大的成就。考慮現(xiàn)有的藥品名片維護方法主要是依賴于藥師對專業(yè)認識的認知來對藥品說明進行字段識別,手動填寫藥品名片內(nèi)容,其維護效率低,且耗時耗力,同時藥品維護方法還有基于規(guī)則的方法,也需要消耗大量人力成本,且規(guī)則本身難以設(shè)計,需要大量人力根據(jù)藥品說明書構(gòu)建藥品名片,藥品名片維護對于人力開銷巨大。
發(fā)明內(nèi)容
本發(fā)明針對現(xiàn)有技術(shù)存在的技術(shù)問題,提供一種基于NLP(自然語言處理)的藥品名片自動提取方法,有效提高提取效率和準確率,極大地減少人力成本。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:
一種基于NLP的藥品名片自動提取方法,包括:
步驟S1,對藥品說明書進行預處理,構(gòu)造訓練集、驗證集和測試集;
步驟S2,加載訓練集和驗證集,進行數(shù)據(jù)封裝和數(shù)據(jù)讀取;
步驟S3,加載BERT模型的配置數(shù)據(jù)和模型特征進行目標模型的參數(shù)初始化過程,構(gòu)建BERT-BILSTM-CRF模型,訓練BERT-BILSTM-CRF模型;
步驟S4,利用訓練好的BERT-BILSTM-CRF模型,加載測試集,對測試集數(shù)據(jù)預測輸出藥品名片字段內(nèi)容。
優(yōu)選的,所述步驟S1包括:
將藥品說明書中內(nèi)容按關(guān)鍵字分塊存儲于各個文本;
將所有同關(guān)鍵字的文本合并,構(gòu)建數(shù)據(jù)集;
根據(jù)BIO表示法對數(shù)據(jù)集標注數(shù)據(jù),得到訓練集、驗證集和測試集;
對訓練集、驗證集和測試集進行數(shù)據(jù)清洗。
優(yōu)選的,所述的關(guān)鍵字包括但不限于:藥品名稱、適應癥、用法用量、藥理作用、不良反應、注意事項和禁忌。
優(yōu)選的,所述步驟S2包括:
S21、加載訓練集和驗證集,得到數(shù)據(jù)的輸入樣本,即樣本、樣本編碼和標簽;
S22、構(gòu)造一個評估控制器;
S23、將所有輸入樣本封裝成為“tf_record格式”數(shù)據(jù),作為模型數(shù)據(jù)輸入;
S24、讀取“tf_record格式”數(shù)據(jù),組成批數(shù)據(jù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廈門大學附屬第一醫(yī)院,未經(jīng)廈門大學附屬第一醫(yī)院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010621850.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 通佐溴胺在制備能夠阻斷p97與Npl4的相互作用的抑制劑中的用途
- 鹽酸表柔比星在制備能夠阻斷p97與Npl4的相互作用的抑制劑中的用途
- p97基因治療病毒感染的用途及其相關(guān)藥物
- 一種唾液酸酶基因敲除小鼠模型的構(gòu)建方法及其應用
- NPL在子癇前期診斷和治療中的應用
- 一種基于Wunsch算法的自動閱卷系統(tǒng)
- 一種文件搜索方法、系統(tǒng)、裝置及計算機存儲介質(zhì)
- 一種遠程NPL運行環(huán)境的線程調(diào)度方法、系統(tǒng)及相關(guān)裝置
- 一種本地NPL運行環(huán)境的線程調(diào)度方法、系統(tǒng)及相關(guān)裝置
- 一種遠程文件激活方法、系統(tǒng)及相關(guān)裝置





