[發(fā)明專利]文本糾錯模型建立方法、裝置、介質(zhì)及電子設(shè)備在審

申請?zhí)枺?/td>	202011389555.1	申請日：	2020-12-01
公開（公告）號：	CN112507695A	公開（公告）日：	2021-03-16
發(fā)明（設(shè)計）人：	陳楨博;鄭立穎;徐亮	申請（專利權(quán)）人：	平安科技（深圳）有限公司
主分類號：	G06F40/232	分類號：	G06F40/232;G06F40/284;G06N3/04;G06N3/08
代理公司：	深圳市隆天聯(lián)鼎知識產(chǎn)權(quán)代理有限公司 44232	代理人：	孫強(qiáng)
地址：	518000 廣東省深圳市福田區(qū)福***	國省代碼：	廣東;44
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	文本糾錯模型建立方法裝置介質(zhì) 電子設(shè)備
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本公開涉及自然語言處理領(lǐng)域，揭示了一種文本糾錯模型建立方法、裝置、介質(zhì)及電子設(shè)備。該方法包括：獲取文本語料；獲取經(jīng)隨機(jī)遮蓋處理后的文本語料中保留的字符對應(yīng)的第一向量；將第一向量輸入至模型，以便模型的生成器輸出第二向量，并由模型的鑒別器輸出第一預(yù)測結(jié)果；計算第一損失函數(shù)；若未達(dá)到第一收斂條件，則執(zhí)行獲取第一向量步驟及之后的步驟；獲取經(jīng)隨機(jī)替換處理后的文本語料中字符對應(yīng)的第三向量；將第三向量輸入至鑒別器模塊，得到第二預(yù)測結(jié)果；計算第二損失函數(shù)；若未達(dá)到第二收斂條件，則執(zhí)行獲取第三向量步驟及之后的步驟；將鑒別器與預(yù)訓(xùn)練的文本填充模塊對接，得到文本糾錯模型。此方法降低了數(shù)據(jù)標(biāo)注成本，提高了糾錯效果。

技術(shù)領(lǐng)域

本公開涉及自然語言處理技術(shù)領(lǐng)域，特別涉及一種文本糾錯模型建立方法、裝置、介質(zhì)及電子設(shè)備。

背景技術(shù)

在一些文本處理的任務(wù)場景中，需要對人工撰寫或者語音錄入的文本進(jìn)行糾錯(主要表現(xiàn)為輸入法拼寫錯誤、專業(yè)名詞使用錯誤等)，并將糾錯后的文本重新輸出。此類任務(wù)的典型實(shí)現(xiàn)方式，是通過監(jiān)督學(xué)習(xí)方法對輸入文本進(jìn)行序列標(biāo)注，發(fā)現(xiàn)錯誤的字符并將其替換。這類方法雖然能夠獲得不錯的效果，但是必須提供質(zhì)量較高的標(biāo)注數(shù)據(jù)，而并非所有項(xiàng)目都能具備這樣的條件。

比如，目前存在這樣的場景，即能夠提供相應(yīng)領(lǐng)域的大量語料，并且這些語料不包含錯誤，但是并沒有提供進(jìn)行了糾錯標(biāo)注的語料數(shù)據(jù)，因此無法直接通過上述監(jiān)督學(xué)習(xí)方式進(jìn)行建模，導(dǎo)致難以訓(xùn)練文本糾錯模型。因此，對于缺乏有錯誤標(biāo)注的語料數(shù)據(jù)的場景，目前無法建立一個能夠有效完成文本糾錯任務(wù)的模型。

發(fā)明內(nèi)容

在自然語言處理技術(shù)領(lǐng)域，為了解決上述技術(shù)問題，本公開的目的在于提供一種文本糾錯模型建立方法、裝置、介質(zhì)及電子設(shè)備。

根據(jù)本公開的一方面，提供了一種文本糾錯模型建立方法，所述方法包括：

獲取文本語料；

利用第一損失函數(shù)對ELECTRA模型執(zhí)行訓(xùn)練步驟，包括：

獲取經(jīng)隨機(jī)遮蓋處理后的所述文本語料中保留的字符對應(yīng)的第一字符向量，其中，所述文本語料包括多個字符；

將所述保留的字符對應(yīng)的第一字符向量輸入至ELECTRA模型，以便所述ELECTRA模型中的生成器模塊輸出與所述文本語料對應(yīng)的多個第二字符向量，并由所述ELECTRA模型中的鑒別器模塊輸出各第二字符向量是否與所述文本語料中相應(yīng)字符匹配的第一預(yù)測結(jié)果；

基于所述文本語料、所述第二字符向量和所述第一預(yù)測結(jié)果計算第一損失函數(shù)；

若所述第一損失函數(shù)未達(dá)到對應(yīng)的第一收斂條件，則執(zhí)行所述獲取經(jīng)隨機(jī)遮蓋處理后的所述文本語料中保留的字符對應(yīng)的第一字符向量的步驟及之后的步驟；

利用第二損失函數(shù)對所述鑒別器模塊執(zhí)行訓(xùn)練步驟，包括：

獲取經(jīng)隨機(jī)替換處理后的所述文本語料中字符對應(yīng)的第三字符向量；

將所述第三字符向量輸入至所述鑒別器模塊，得到由所述鑒別器模塊輸出的第二預(yù)測結(jié)果，其中，所述第二預(yù)測結(jié)果表示各所述第三字符向量是否與所述文本語料中相應(yīng)字符匹配；

基于所述文本語料和所述第二預(yù)測結(jié)果計算第二損失函數(shù)；

若所述第二損失函數(shù)未達(dá)到對應(yīng)的第二收斂條件，則執(zhí)行所述獲取經(jīng)隨機(jī)替換處理后的所述文本語料中字符對應(yīng)的第三字符向量的步驟及之后的步驟；

執(zhí)行對接步驟，所述對接步驟包括：將所述鑒別器模塊與預(yù)先訓(xùn)練好的文本填充模塊對接，得到文本糾錯模型。

根據(jù)本公開的另一方面，提供了一種文本糾錯模型建立裝置，所述裝置包括：

獲取模塊，被配置為獲取文本語料；

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費(fèi)下載。

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于平安科技（深圳）有限公司，未經(jīng)平安科技（深圳）有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202011389555.1/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種電力電子裝置及其制造方法
下一篇：水稻生長素糖基轉(zhuǎn)移酶基因在培育耐淹水稻品種中的應(yīng)用

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

滑坡模型實(shí)驗(yàn)?zāi)Ｐ图?/a>

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊】