[發明專利]一種基于BERT模型的醫療文本理解方法及系統在審
| 申請號: | 202010977191.2 | 申請日: | 2020-09-17 |
| 公開(公告)號: | CN112016314A | 公開(公告)日: | 2020-12-01 |
| 發明(設計)人: | 汪秀英 | 申請(專利權)人: | 汪秀英 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279;G06F40/30;G06F16/335;G16H50/70;G06N3/04 |
| 代理公司: | 長沙正務聯合知識產權代理事務所(普通合伙) 43252 | 代理人: | 鄭雋;吳婷 |
| 地址: | 410205 湖南省長沙市高新*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 bert 模型 醫療 文本 理解 方法 系統 | ||
本發明涉及一種文本處理的技術領域,揭露了一種基于BERT模型的醫療文本理解方法,包括:獲取醫療文本數據,利用句子過濾模型過濾掉無效醫療文本數據;根據過濾后的醫療文本數據,利用基于文本拷貝的醫療文本生成模型進行大規模醫療文本數據的生成;利用所生成的大規模醫療領域文本數據進行醫療文本實體識別模型的訓練;利用所訓練得到的醫療文本實體識別模型對待處理的醫療文本進行實體識別;利用基于注意力的信息抽取方法對醫療文本實體進行語義抽取,得到醫療文本實體語義特征;根據所述醫療文本實體語義特征,利用多層感知機進行醫療文本的理解。本發明還提供了一種基于BERT模型的醫療文本理解系統。本發明實現了醫療文本的理解。
技術領域
本發明涉及文本處理技術領域,尤其涉及一種基于BERT模型的醫療文本理解方法及系統。
背景技術
隨著經濟水平的提高,將不可避免地使人們更加關注自身的健康狀況,同時對醫療服務水平的要求也越來越高。現有的醫療服務受到資源和管理等各種因素的限制,很難滿足人們日益增長的需求。智能醫療就變得越來越重要,充分利用醫學文本中的知識可以加快智能醫療的進程。
目前關于醫療領域的文本理解研究較少,傳統基于神經網絡的命名實體識別模型需要大量的標記訓練數據,然而醫療領域數據專有名詞具有較強的專業性,標注成本高,導致準確的標注數據較少,缺少大規模的醫療領域文本數據集。同時由于醫生書寫的習慣存在較大差異目前的實體識別模型難以聯系上下文對實體進行歸類,并對醫療實體進行識別。
鑒于此,如何獲取大規模醫療文本數據集,并構建能夠有效應用于醫療領域的醫療實體識別模型,從而利用所識別出的醫療實體信息進行醫療文本理解,成為本領域技術人員亟待解決的問題。
發明內容
本發明提供一種基于BERT模型的醫療文本理解方法,通過利用基于文本拷貝的醫療文本生成技術生成大規模醫療領域文本數據,并利用所生成的醫療領域文本數據進行醫療文本實體識別模型的訓練,從而利用所訓練得到的醫療文本實體識別模型對待處理的醫療文本進行實體識別;并利用基于規則的信息抽取方法對醫療文本實體進行語義抽取,根據所抽取的語義信息實現醫療文本的理解。
為實現上述目的,本發明提供的一種基于BERT模型的醫療文本理解方法,包括:
獲取醫療文本數據,利用句子過濾模型過濾掉無效醫療文本數據;
根據過濾后的醫療文本數據,利用基于文本拷貝的醫療文本生成模型進行大規模醫療文本數據的生成;
利用所生成的大規模醫療領域文本數據進行醫療文本實體識別模型的訓練;
利用所訓練得到的醫療文本實體識別模型對待處理的醫療文本進行實體識別;
利用基于注意力的信息抽取方法對醫療文本實體進行語義抽取,得到醫療文本實體語義特征;
根據所述醫療文本實體語義特征,利用多層感知機進行醫療文本的理解。
可選地,所述利用句子過濾模型過濾掉無效醫療文本數據,包括:
所述句子過濾模型是基于BERT的自注意力機制模型;所述利用句子過濾模型進行無效醫療文本數據過濾的流程為:
1)在輸入詞序列前增加[CLS]標記,在輸入詞序列后增加[SEP]標記,將輸入詞序列轉換為對應的Token Embedding,并計算得到每個詞所對應的Position Embedding;將各個詞對應的兩種Embedding相加,得到輸入的Embedding編碼;
2)利用基于全局的注意力矩陣得到輸入序列向量的注意力權重α:
α=softmax(WT)
其中:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于汪秀英,未經汪秀英許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010977191.2/2.html,轉載請聲明來源鉆瓜專利網。





