[發(fā)明專利]一種基于BERT模型的醫(yī)療文本理解方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202010977191.2 | 申請日: | 2020-09-17 |
| 公開(公告)號: | CN112016314A | 公開(公告)日: | 2020-12-01 |
| 發(fā)明(設(shè)計)人: | 汪秀英 | 申請(專利權(quán))人: | 汪秀英 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279;G06F40/30;G06F16/335;G16H50/70;G06N3/04 |
| 代理公司: | 長沙正務(wù)聯(lián)合知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 43252 | 代理人: | 鄭雋;吳婷 |
| 地址: | 410205 湖南省長沙市高新*** | 國省代碼: | 湖南;43 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 bert 模型 醫(yī)療 文本 理解 方法 系統(tǒng) | ||
1.一種基于BERT模型的醫(yī)療文本理解方法,其特征在于,所述方法包括:
獲取醫(yī)療文本數(shù)據(jù),利用句子過濾模型過濾掉無效醫(yī)療文本數(shù)據(jù);
根據(jù)過濾后的醫(yī)療文本數(shù)據(jù),利用基于文本拷貝的醫(yī)療文本生成模型進行大規(guī)模醫(yī)療文本數(shù)據(jù)的生成;
利用所生成的大規(guī)模醫(yī)療領(lǐng)域文本數(shù)據(jù)進行醫(yī)療文本實體識別模型的訓(xùn)練;
利用所訓(xùn)練得到的醫(yī)療文本實體識別模型對待處理的醫(yī)療文本進行實體識別;
利用基于注意力的信息抽取方法對醫(yī)療文本實體進行語義抽取,得到醫(yī)療文本實體語義特征;
根據(jù)所述醫(yī)療文本實體語義特征,利用多層感知機進行醫(yī)療文本的理解。
2.如權(quán)利要求1所述的一種基于BERT模型的醫(yī)療文本理解方法,其特征在于,所述利用句子過濾模型過濾掉無效醫(yī)療文本數(shù)據(jù),包括:
所述句子過濾模型是基于BERT的自注意力機制模型;所述利用句子過濾模型進行無效醫(yī)療文本數(shù)據(jù)過濾的流程為:
1)在輸入詞序列前增加[CLS]標(biāo)記,在輸入詞序列后增加[SEP]標(biāo)記,將輸入詞序列轉(zhuǎn)換為對應(yīng)的Token Embedding,并計算得到每個詞所對應(yīng)的Position Embedding;將各個詞對應(yīng)的兩種Embedding相加,得到輸入的Embedding編碼;
2)利用基于全局的注意力矩陣得到輸入序列向量的注意力權(quán)重α:
α=softmax(WT)
其中:
W是基于權(quán)重的注意力矩陣,用于輔助模型捕捉輸入序列的表示中對于分類而言更重要的信息;
T為BERT詞向量;
3)將注意力權(quán)重與對應(yīng)詞向量編碼層得到的BERT詞向量表示進行相乘,得到輸入序列的注意力表示:
其中:
Ti表示第i個BERT詞向量;
αi表示第i個BERT詞向量的注意力權(quán)重;
4)基于多層感知機的參數(shù)矩陣進行句子過濾結(jié)果的輸出:
Output=sigmoid(W0attention)
其中:
W0為多層感知機的參數(shù)矩陣。
3.如權(quán)利要求2所述的一種基于BERT模型的醫(yī)療文本理解方法,其特征在于,所述利用基于文本拷貝的醫(yī)療文本生成模型進行大規(guī)模醫(yī)療文本數(shù)據(jù)的生成,包括:
1)引入一個隱變量zt來控制模型在解碼過程中從詞表生成或從文本中拷貝當(dāng)前所需要生成的詞,當(dāng)zt=0代表解碼器當(dāng)前時刻需要從詞表中生成一個詞,當(dāng)zt=1代表解碼器當(dāng)前時刻從輸入的文本D中拷貝一個詞;
2)利用解碼器進行醫(yī)療文本的生成,其中解碼器生成第t個詞的概率為:
其中:
D為句子過濾結(jié)果的文本;
S為文本詞向量;
yt為生成的第t個詞;
zt為一個隱變量,當(dāng)zt=0代表解碼器當(dāng)前時刻需要從詞表中生成一個詞,當(dāng)zt=1代表解碼器當(dāng)前時刻從輸入的文本D中拷貝一個詞。
4.如權(quán)利要求3所述的一種基于BERT模型的醫(yī)療文本理解方法,其特征在于,所述利用所生成的大規(guī)模醫(yī)療領(lǐng)域文本數(shù)據(jù)進行醫(yī)療文本實體識別模型的訓(xùn)練過程為:
1)使用雙向masked語言模型,采用隨機標(biāo)記[MASK]的方法給輸入的token標(biāo)上[MASK],利用上下文來對所標(biāo)記上[MASK]的token進行預(yù)測任務(wù);
2)在醫(yī)療文本數(shù)據(jù)中隨機選擇兩個句子,根據(jù)所述句子的[MASK]標(biāo)記,若兩個句子的[MASK]標(biāo)記為上下文標(biāo)識,則認為其中一個句子是另一句子的下一句;
3)重復(fù)上述步驟,直到30%的醫(yī)療文本數(shù)據(jù)被標(biāo)記上[MASK]。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于汪秀英,未經(jīng)汪秀英許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010977191.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種基于Bert的意圖確定方法及裝置
- 語言模型的訓(xùn)練方法、裝置和計算機設(shè)備
- 融合外部知識的BERT模型的微調(diào)方法、裝置及計算機設(shè)備
- 基于BERT-BTM網(wǎng)絡(luò)的微博突發(fā)事件檢測方法
- 生成文本數(shù)據(jù)的方法、裝置和計算機設(shè)備
- 基于卷積神經(jīng)網(wǎng)絡(luò)的BERT模型的微調(diào)方法及裝置
- 多語言BERT序列標(biāo)注模型的壓縮方法及系統(tǒng)
- BERT模型的優(yōu)化方法及系統(tǒng)、電子設(shè)備及存儲介質(zhì)
- 一種基于BERT的多特征融合模糊文本分類系統(tǒng)
- 一種基于Bert+BiLSTM+CRF的知識元自動抽取方法





