[發明專利]基于BERT模型的醫學應用模型訓練方法及裝置在審
| 申請號: | 202011159163.6 | 申請日: | 2020-10-26 |
| 公開(公告)號: | CN112347773A | 公開(公告)日: | 2021-02-09 |
| 發明(設計)人: | 劉靜;周永杰;王則遠 | 申請(專利權)人: | 北京諾道認知醫學科技有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/30 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 苗曉靜 |
| 地址: | 100161 北京市豐臺區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 bert 模型 醫學 應用 訓練 方法 裝置 | ||
1.一種基于BERT模型的醫學應用模型訓練方法,其特征在于,包括:
獲取循證醫學訓練樣本;
對所述循證醫學訓練樣本進行實體詞匯屏蔽,得到MLM訓練樣本;
利用所述MLM訓練樣本對BERT模型進行MLM訓練,得到PICO-BERT模型;
其中,所述實體詞匯對應于循證醫學中具有實際意義的實體。
2.根據權利要求1所述的基于BERT模型的醫學應用模型訓練方法,其特征在于,
所述獲取循證醫學訓練樣本包括:
獲取醫學文獻;
在所述醫學文獻中提取PICO實體;所述PICO實體包括:問題的對象、干預措施、備選措施、結果;
將每篇醫學文獻中的PICO實體確定為一條循證醫學訓練樣本。
3.根據權利要求1所述的基于BERT模型的醫學應用模型訓練方法,其特征在于,
所述對所述循證醫學訓練樣本進行實體詞匯屏蔽,得到MLM訓練樣本包括:
對所述循證醫學訓練樣本進行分詞,得到分詞結果;
將所述分詞結果與PICO實體進行對齊,得到對齊結果;
利用所述對齊結果中的實體詞匯對所述循證醫學訓練樣本進行屏蔽,得到MLM訓練樣本;
其中,所述PICO實體為循證醫學中具有實際自然意義的實體。
4.根據權利要求1所述的基于BERT模型的醫學應用模型訓練方法,其特征在于,
所述實體詞匯包括以下至少一種:疾病種類詞匯、藥物詞匯、生物酶詞匯、病理反應詞匯。
5.根據權利要求1所述的基于BERT模型的醫學應用模型訓練方法,其特征在于,
所述利用所述MLM訓練樣本對BERT模型進行MLM訓練,得到PICO-BERT模型包括:
將BERT模型置于訓練模式;
將所述MLM訓練樣本輸入所述BERT模型,得到訓練后的BERT模型;
將訓練后的BERT模型確定為PICO-BERT模型。
6.根據權利要求1至5任一項所述的基于BERT模型的醫學應用模型訓練方法,其特征在于,
刪除所述PICO-BERT模型中的NSP訓練任務。
7.一種基于BERT模型的醫學應用模型訓練裝置,其特征在于,包括:
樣本獲取模塊,用于獲取循證醫學訓練樣本;
樣本處理模塊,用于對所述循證醫學訓練樣本進行實體詞匯屏蔽,得到MLM訓練樣本;
模型訓練模塊,用于利用所述MLM訓練樣本對BERT模型進行MLM訓練,得到PICO-BERT模型;
其中,所述實體詞匯對應于循證醫學中具有實際意義的實體。
8.根據權利要求7所述的基于BERT模型的醫學應用模型訓練裝置,其特征在于,所述樣本處理模塊包括:
分詞單元,用于對所述循證醫學訓練樣本進行分詞,得到分詞結果;
對齊單元,用于將所述分詞結果與PICO實體進行對齊,得到對齊結果;
屏蔽單元,用于利用所述對齊結果中的實體詞匯對所述循證醫學訓練樣本進行屏蔽,得到MLM訓練樣本;
其中,所述PICO實體為循證醫學中具有實際自然意義的實體。
9.一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于,所述處理器執行所述程序時實現如權利要求1至6任一項所述基于BERT模型的醫學應用模型訓練方法的步驟。
10.一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,該計算機程序被處理器執行時實現如權利要求1至6任一項所述基于BERT模型的醫學應用模型訓練方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京諾道認知醫學科技有限公司,未經北京諾道認知醫學科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011159163.6/1.html,轉載請聲明來源鉆瓜專利網。





