[發(fā)明專利]一種基于句子語義替換的電子病歷文本數(shù)據(jù)增強(qiáng)方法有效
| 申請?zhí)枺?/td> | 202110099780.X | 申請日: | 2021-01-25 |
| 公開(公告)號: | CN112836047B | 公開(公告)日: | 2022-05-27 |
| 發(fā)明(設(shè)計)人: | 利建鑫;任江濤 | 申請(專利權(quán))人: | 中山大學(xué) |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/36;G06F40/211;G06F40/30;G06K9/62;G16H10/60;G16H50/70 |
| 代理公司: | 廣州粵高專利商標(biāo)代理有限公司 44102 | 代理人: | 林麗明 |
| 地址: | 510260 廣東*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 句子 語義 替換 電子 病歷 文本 數(shù)據(jù) 增強(qiáng) 方法 | ||
本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域,公開了一種基于句子語義替換的電子病歷文本數(shù)據(jù)增強(qiáng)方法,將數(shù)據(jù)集中的一個樣本文本作為原始文本,將原始文本拆分成多個句子,將句子整句替換成與原句語義相同或相似的句子,增加樣本的數(shù)量,實現(xiàn)數(shù)據(jù)增強(qiáng),增加生成的文本與原始文本的差異性,防止模型過擬合。
技術(shù)領(lǐng)域
本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域,特別是涉及一種基于句子語義替換的電子病歷文本數(shù)據(jù)增強(qiáng)方法。
背景技術(shù)
文本分類是自然語言處理中的一項基本任務(wù)。機(jī)器學(xué)習(xí)和深度學(xué)習(xí)在這項任務(wù)中獲得了很高的準(zhǔn)確率。然而,文本分類的高準(zhǔn)確率往往取決于訓(xùn)練數(shù)據(jù)的大小和質(zhì)量,這在真實的任務(wù)中往往是難以滿足的,特別是在基于電子病歷文本的疾病輔助診斷任務(wù)中,我們難以收集到足夠的高質(zhì)量數(shù)據(jù)。數(shù)據(jù)增強(qiáng)被廣泛應(yīng)用在深度學(xué)習(xí)中,使用這項技術(shù)可以增加訓(xùn)練數(shù)據(jù)的個數(shù)。Jason W.Wei和Kai Zou在文章《EDA:Easy Data AugmentationTechniques for Boosting Performance on Text Classification Tasks》提出了一種EDA方法,這種方法包含四種操作,分別是同義詞替換,隨機(jī)插入,隨機(jī)交換和隨機(jī)刪除,能夠有效的提高模型的準(zhǔn)確率。然而,EDA的四種操作的對象都是詞,這樣生成的文本與原來的文本差異度較小,容易導(dǎo)致模型過擬合。
中國發(fā)明專利申請CN108460015A(公開日為2018年08月28日)公開了一種文本情感分類數(shù)據(jù)增強(qiáng)分析方法,包括:獲取待處理的原始句子文本;對所述原始句子文本進(jìn)行處理,得到與所述原始句子文本語義相同的處理語句文本;應(yīng)用所述原始句子文本及所述處理語句文本進(jìn)行情感分析。該專利是通過替換文本中的詞語來實現(xiàn)數(shù)據(jù)增強(qiáng)的,使生成的文本與原始文本的差異度較小,容易導(dǎo)致模型過擬合。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種能夠增加與原文本的差異性且不改變文本的含義的基于句子語義替換的電子病歷文本數(shù)據(jù)增強(qiáng)方法。
為了實現(xiàn)上述目的,本發(fā)明提供了一種基于句子語義替換的電子病歷文本數(shù)據(jù)增強(qiáng)方法,包括:
S1、獲取待處理的原始文本;
S2、將所述原始文本拆分為多個原始句子,根據(jù)逗號、分號或句號將所述原始文本進(jìn)行分句;
S3、將所述原始句子替換成語義相同或相似的樣本句子;包括:。
S3.1、構(gòu)建句子語料庫;將已獲得的數(shù)據(jù)集中的各樣本文本進(jìn)行分類,將樣本文本拆分成多個樣本句子,屬于同一類別的樣本文本中的各個樣本句子構(gòu)成該類別的句子語料庫;根據(jù)疾病類型將各所述樣本文本進(jìn)行分類;
S3.2、根據(jù)所述原始句子與所述句子語料庫中的每個樣本句子的相似度,從句子語料庫中采樣一個樣本句子來替換所述原始句子;在所述原始文本所屬類別的句子語料庫中進(jìn)行采樣;將原始文本定義為xi,xi是一段文本,由多個句子sj組成,即yj∈{1,...C},yj為文本xi所屬的類別,C代表某一具體的類別;將句子語料庫定為KC,KC由類別為C的多個樣本文本的所有樣本句子組成,即yj=C,q為樣本文本的個數(shù),C為樣本文本所屬的類別;
使用編碼器gθ對原始句子sj進(jìn)行編碼,得到原始句子sj的向量表示d為向量的維度,編碼器gθ為預(yù)訓(xùn)練語言模型;
使用編碼器gθ對句子語料庫KC中的每一個樣本句子進(jìn)行編碼,得到樣本句子的向量表示
計算原始句子sj與樣本句子的相似度:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中山大學(xué),未經(jīng)中山大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110099780.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





