[發(fā)明專利]一種文本處理模型訓(xùn)練方法、電子設(shè)備及可讀存儲(chǔ)介質(zhì)在審
| 申請?zhí)枺?/td> | 202310513511.2 | 申請日: | 2023-05-05 |
| 公開(公告)號(hào): | CN116628132A | 公開(公告)日: | 2023-08-22 |
| 發(fā)明(設(shè)計(jì))人: | 黃鵬偉;陳立力;周明偉 | 申請(專利權(quán))人: | 浙江大華技術(shù)股份有限公司 |
| 主分類號(hào): | G06F16/33 | 分類號(hào): | G06F16/33;G06F16/35;G06F40/289;G06F40/30 |
| 代理公司: | 深圳市威世博知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44280 | 代理人: | 李秀云 |
| 地址: | 310051 浙江*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文本 處理 模型 訓(xùn)練 方法 電子設(shè)備 可讀 存儲(chǔ) 介質(zhì) | ||
本發(fā)明公開了一種文本處理模型訓(xùn)練方法、電子設(shè)備及可讀存儲(chǔ)介質(zhì)。文本處理模型訓(xùn)練方法包括:對訓(xùn)練集中的訓(xùn)練文本進(jìn)行分詞處理;隨機(jī)選擇訓(xùn)練文本中的至少一個(gè)詞并進(jìn)行掩蓋處理,得到掩蓋文本;對掩蓋文本中的被掩蓋的詞進(jìn)行預(yù)測;將掩蓋文本中被掩蓋的詞替換為被掩蓋的詞的預(yù)測結(jié)果,得到增強(qiáng)文本;若訓(xùn)練文本和其對應(yīng)的增強(qiáng)文本的語義相似度符合預(yù)設(shè)條件,將增強(qiáng)文本加入到訓(xùn)練集,得到擴(kuò)充訓(xùn)練集;利用擴(kuò)充訓(xùn)練集對文本處理模型進(jìn)行訓(xùn)練。通過上述方式,本發(fā)明能夠生成大量擴(kuò)充文本,提高擴(kuò)充文本的語義準(zhǔn)確性。
技術(shù)領(lǐng)域
本發(fā)明涉及文本處理技術(shù)領(lǐng)域,特別是涉及一種文本處理模型訓(xùn)練方法、電子設(shè)備及可讀存儲(chǔ)介質(zhì)。
背景技術(shù)
近年來,使用深度學(xué)習(xí)模型極大地提升了文本處理的效率,但是,利用深度學(xué)習(xí)模型進(jìn)行文本處理,需要大量的標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,而神深度學(xué)習(xí)模型的優(yōu)劣通常依賴于訓(xùn)練數(shù)據(jù)集的大小和質(zhì)量,如此在樣本量少的數(shù)據(jù)集上訓(xùn)練深度學(xué)習(xí)模型往往會(huì)產(chǎn)生過擬合現(xiàn)象,使得模型在真實(shí)預(yù)測場景中的表現(xiàn)能力會(huì)大打折扣。
發(fā)明內(nèi)容
本發(fā)明主要解決的技術(shù)問題是提供一種文本處理模型訓(xùn)練方法、電子設(shè)備及可讀存儲(chǔ)介質(zhì),能夠生成大量擴(kuò)充文本,提高擴(kuò)充文本的語義準(zhǔn)確性。
為實(shí)現(xiàn)上述技術(shù)效果,本發(fā)明采用的一個(gè)技術(shù)方案是:提供一種文本處理模型訓(xùn)練方法,文本處理模型訓(xùn)練方法包括:對訓(xùn)練集中的訓(xùn)練文本進(jìn)行分詞處理;隨機(jī)選擇訓(xùn)練文本中的至少一個(gè)詞并進(jìn)行掩蓋處理,得到掩蓋文本;對掩蓋文本中的被掩蓋的詞進(jìn)行預(yù)測;將掩蓋文本中被掩蓋的詞替換為被掩蓋的詞的預(yù)測結(jié)果,得到增強(qiáng)文本;若訓(xùn)練文本和其對應(yīng)的增強(qiáng)文本的語義相似度符合預(yù)設(shè)條件,將增強(qiáng)文本加入到訓(xùn)練集,得到擴(kuò)充訓(xùn)練集;利用擴(kuò)充訓(xùn)練集對文本處理模型進(jìn)行訓(xùn)練。
在一實(shí)施方式中,對訓(xùn)練集中的訓(xùn)練文本進(jìn)行分詞處理之前包括:確定訓(xùn)練文本中的無關(guān)敏感信息,無關(guān)敏感信息為與文本處理模型的處理任務(wù)不相關(guān)的敏感信息;將無關(guān)敏感信息從訓(xùn)練文本刪除,得到脫敏文本;對訓(xùn)練集中的訓(xùn)練文本進(jìn)行分詞處理,包括:對脫敏文本進(jìn)行分詞處理。
在一實(shí)施方式中,確定訓(xùn)練文本中的無關(guān)敏感信息包括:對訓(xùn)練文本中的實(shí)體信息進(jìn)行提取;從訓(xùn)練文本的所有實(shí)體信息中,確定出無關(guān)敏感信息。
在一實(shí)施方式中,對訓(xùn)練文本中的實(shí)體信息進(jìn)行提取包括:利用命名實(shí)體識(shí)別方法對訓(xùn)練文本中的實(shí)體信息進(jìn)行提取。
在一實(shí)施方式中,對訓(xùn)練集中的訓(xùn)練文本進(jìn)行分詞處理之后包括:將訓(xùn)練文本中的停用詞刪除,得到去噪文本;隨機(jī)選擇訓(xùn)練文本中的至少一個(gè)詞并進(jìn)行掩蓋處理,得到掩蓋文本,包括:隨機(jī)選擇去噪文本中的至少一個(gè)詞并進(jìn)行掩蓋處理,得到掩蓋文本。
在一實(shí)施方式中,若訓(xùn)練文本和其對應(yīng)的增強(qiáng)文本的語義相似度符合預(yù)設(shè)條件,將增強(qiáng)文本加入到訓(xùn)練集,得到擴(kuò)充訓(xùn)練集,包括:通過語義提取模型對訓(xùn)練文本進(jìn)行語義提取,得到第一文本向量;通過語義提取模型對訓(xùn)練文本對應(yīng)的增強(qiáng)文本進(jìn)行語義提取,得到第二文本向量;計(jì)算第一文本向量和第二文本向量之間的夾角余弦度,得到訓(xùn)練文本和其對應(yīng)的增強(qiáng)文本的語義相似度。
在一實(shí)施方式中,將掩蓋文本中被掩蓋的詞替換為被掩蓋的詞的預(yù)測結(jié)果,得到增強(qiáng)文本之后包括:若增強(qiáng)文本對應(yīng)的語義相似度不符合預(yù)設(shè)條件,則丟棄增強(qiáng)文本,再返回隨機(jī)選擇訓(xùn)練文本中的至少一個(gè)詞并進(jìn)行掩蓋處理,得到掩蓋文本的步驟,直至得到訓(xùn)練文本的符合預(yù)設(shè)條件的增強(qiáng)文本。
在一實(shí)施方式中,隨機(jī)選擇訓(xùn)練文本中的至少一個(gè)詞并進(jìn)行掩蓋處理,得到掩蓋文本,包括:基于訓(xùn)練文本的文本長度和預(yù)設(shè)掩蓋比例,確定訓(xùn)練文本的掩蓋字?jǐn)?shù);從訓(xùn)練文本中隨機(jī)選擇至少一個(gè)詞,其中,隨機(jī)選擇的至少一個(gè)詞的總字?jǐn)?shù)與掩蓋字?jǐn)?shù)的差異在預(yù)設(shè)范圍內(nèi);對至少一個(gè)詞進(jìn)行掩蓋處理,得到掩蓋文本。
為實(shí)現(xiàn)上述技術(shù)效果,本發(fā)明采用的另一個(gè)技術(shù)方案是:提供一種電子設(shè)備,包括存儲(chǔ)器、處理器以及存儲(chǔ)在存儲(chǔ)器中并可在處理器上運(yùn)行的計(jì)算機(jī)程序,處理器執(zhí)行計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述任一項(xiàng)的方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江大華技術(shù)股份有限公司,未經(jīng)浙江大華技術(shù)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310513511.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





