[發(fā)明專利]中文文本糾錯(cuò)及驗(yàn)證方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 202210824618.4 | 申請(qǐng)日: | 2022-07-13 |
| 公開(公告)號(hào): | CN115169330B | 公開(公告)日: | 2023-05-02 |
| 發(fā)明(設(shè)計(jì))人: | 舒暢;陳又新 | 申請(qǐng)(專利權(quán))人: | 平安科技(深圳)有限公司 |
| 主分類號(hào): | G06F40/232 | 分類號(hào): | G06F40/232;G06F40/211;G06F40/289 |
| 代理公司: | 深圳市沃德知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518000 廣東省深圳市福田區(qū)福*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 中文 文本 糾錯(cuò) 驗(yàn)證 方法 裝置 設(shè)備 存儲(chǔ) 介質(zhì) | ||
1.一種中文文本糾錯(cuò)及驗(yàn)證方法,其特征在于,所述方法包括:
獲取原始糾錯(cuò)訓(xùn)練文本集合,根據(jù)所述原始糾錯(cuò)訓(xùn)練文本集合中文本的正確性標(biāo)注模板文本,得到標(biāo)準(zhǔn)糾錯(cuò)訓(xùn)練文本集合;
構(gòu)建包括文本錯(cuò)誤識(shí)別模型及文本糾錯(cuò)模型的雙階段糾錯(cuò)模型;
利用所述標(biāo)準(zhǔn)糾錯(cuò)訓(xùn)練文本集合對(duì)所述文本錯(cuò)誤識(shí)別模型及文本糾錯(cuò)模型進(jìn)行聯(lián)合訓(xùn)練,得到標(biāo)準(zhǔn)糾錯(cuò)模型;
獲取待糾錯(cuò)文本,利用所述標(biāo)準(zhǔn)糾錯(cuò)模型對(duì)所述待糾錯(cuò)文本進(jìn)行糾錯(cuò),得到已糾錯(cuò)文本;
基于所述已糾錯(cuò)文本構(gòu)建糾錯(cuò)對(duì),利用預(yù)設(shè)的分類模型對(duì)所述糾錯(cuò)對(duì)進(jìn)行糾錯(cuò)類型識(shí)別,得到糾錯(cuò)類型;
基于所述糾錯(cuò)類型,利用編輯距離成本法對(duì)所述糾錯(cuò)對(duì)進(jìn)行糾錯(cuò)驗(yàn)證,得到糾錯(cuò)驗(yàn)證結(jié)果;
其中,所述構(gòu)建包括文本錯(cuò)誤識(shí)別模型及文本糾錯(cuò)模型的雙階段糾錯(cuò)模型,包括:獲取第一BERT模型,在所述第一BERT模型后拼接全連接層及輸出層,得到所述文本錯(cuò)誤識(shí)別模型;獲取第二BERT模型并作為所述文本糾錯(cuò)模型,對(duì)所述文本錯(cuò)誤識(shí)別模型及所述文本糾錯(cuò)模型進(jìn)行串聯(lián)得到所述雙階段糾錯(cuò)模型;
所述利用所述標(biāo)準(zhǔn)糾錯(cuò)訓(xùn)練文本集合對(duì)所述文本錯(cuò)誤識(shí)別模型及文本糾錯(cuò)模型進(jìn)行聯(lián)合訓(xùn)練,得到標(biāo)準(zhǔn)糾錯(cuò)模型,包括:利用所述標(biāo)準(zhǔn)糾錯(cuò)訓(xùn)練文本集合對(duì)所述文本錯(cuò)誤識(shí)別模型進(jìn)行迭代訓(xùn)練;利用訓(xùn)練完成的文本錯(cuò)誤識(shí)別模型輸出所述標(biāo)準(zhǔn)糾錯(cuò)訓(xùn)練文本集合中句子對(duì)應(yīng)的標(biāo)準(zhǔn)字向量;對(duì)所述標(biāo)準(zhǔn)字向量進(jìn)行復(fù)制組合處理,并基于復(fù)制后的組合字向量及預(yù)設(shè)的損失函數(shù)對(duì)所述文本糾錯(cuò)模型進(jìn)行注意力訓(xùn)練;匯總訓(xùn)練完成的文本錯(cuò)誤識(shí)別模型及文本糾錯(cuò)模型得到所述雙階段糾錯(cuò)模型;
所述利用所述標(biāo)準(zhǔn)糾錯(cuò)訓(xùn)練文本集合對(duì)所述文本錯(cuò)誤識(shí)別模型進(jìn)行迭代訓(xùn)練,包括:利用所述第一BERT模型將所述標(biāo)準(zhǔn)糾錯(cuò)訓(xùn)練文本集合中的句子轉(zhuǎn)化為字向量,對(duì)所述字向量中的預(yù)設(shè)位置進(jìn)行遮掩處理,得到遮掩字向量;利用所述全連接層提取所述遮掩字向量的標(biāo)準(zhǔn)字向量,利用所述輸出層輸出所述標(biāo)準(zhǔn)字向量的預(yù)測(cè)值;基于所述預(yù)測(cè)值計(jì)算損失值,若所述損失值大于等于預(yù)設(shè)的損失閾值時(shí),更新所述第一BERT模型中的參數(shù),并返回所述利用所述第一BERT模型將所述標(biāo)準(zhǔn)糾錯(cuò)訓(xùn)練文本集合中的句子轉(zhuǎn)化為字向量的步驟,直至所述損失值小于預(yù)設(shè)的損失閾值時(shí),停止訓(xùn)練,得到訓(xùn)練完成的文本錯(cuò)誤識(shí)別模型;
所述利用所述標(biāo)準(zhǔn)糾錯(cuò)模型對(duì)所述待糾錯(cuò)文本進(jìn)行糾錯(cuò),得到已糾錯(cuò)文本,包括:利用所述標(biāo)準(zhǔn)糾錯(cuò)模型中的文本錯(cuò)誤識(shí)別模型識(shí)別出所述待糾錯(cuò)文本的錯(cuò)誤概率;若所述錯(cuò)誤概率小于預(yù)設(shè)的錯(cuò)誤閾值,則對(duì)所述待糾錯(cuò)文本不作處理;若所述錯(cuò)誤概率大于等于所述錯(cuò)誤閾值,則利用所述標(biāo)準(zhǔn)糾錯(cuò)模型中的文本糾錯(cuò)模型對(duì)所述待糾錯(cuò)文本進(jìn)行文本糾錯(cuò),得到已糾錯(cuò)文本;
所述基于所述已糾錯(cuò)文本構(gòu)建糾錯(cuò)對(duì),利用預(yù)設(shè)的分類模型對(duì)所述糾錯(cuò)對(duì)進(jìn)行糾錯(cuò)類型識(shí)別,得到糾錯(cuò)類型,包括:對(duì)所述已糾錯(cuò)文本及所述已糾錯(cuò)文本對(duì)應(yīng)的待糾錯(cuò)文本進(jìn)行分詞處理;提取分詞后涉及糾錯(cuò)的詞組成糾錯(cuò)對(duì),利用所述分類模型輸出所述糾錯(cuò)對(duì)的糾錯(cuò)類型;
所述基于所述糾錯(cuò)類型,利用編輯距離成本法對(duì)所述糾錯(cuò)對(duì)進(jìn)行糾錯(cuò)驗(yàn)證,得到糾錯(cuò)驗(yàn)證結(jié)果,包括:若所述糾錯(cuò)類型為第一糾錯(cuò)類型,利用調(diào)整字符的編輯距離成本法計(jì)算所述糾錯(cuò)對(duì)的編輯成本;若所述糾錯(cuò)類型為第二糾錯(cuò)類型,利用鍵盤級(jí)別的編輯距離成本法計(jì)算所述糾錯(cuò)對(duì)的編輯成本;確定編輯成本小于等于預(yù)設(shè)成本閾值的糾錯(cuò)對(duì)的糾錯(cuò)驗(yàn)證結(jié)果為糾錯(cuò)成功,確定編輯成本大于預(yù)設(shè)成本閾值的糾錯(cuò)對(duì)的糾錯(cuò)驗(yàn)證結(jié)果為糾錯(cuò)失敗。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于平安科技(深圳)有限公司,未經(jīng)平安科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210824618.4/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 驗(yàn)證系統(tǒng)、驗(yàn)證服務(wù)器、驗(yàn)證方法、驗(yàn)證程序、終端、驗(yàn)證請(qǐng)求方法、驗(yàn)證請(qǐng)求程序和存儲(chǔ)媒體
- 驗(yàn)證目標(biāo)系統(tǒng)的驗(yàn)證系統(tǒng)及其驗(yàn)證方法
- 驗(yàn)證設(shè)備、驗(yàn)證方法和驗(yàn)證程序
- 驗(yàn)證裝置、驗(yàn)證系統(tǒng)以及驗(yàn)證方法
- 驗(yàn)證方法、驗(yàn)證系統(tǒng)、驗(yàn)證設(shè)備及其程序
- 驗(yàn)證方法、用于驗(yàn)證的系統(tǒng)、驗(yàn)證碼系統(tǒng)以及驗(yàn)證裝置
- 圖片驗(yàn)證碼驗(yàn)證方法和圖片驗(yàn)證碼驗(yàn)證裝置
- 驗(yàn)證裝置、驗(yàn)證程序和驗(yàn)證方法
- 驗(yàn)證裝置、驗(yàn)證方法及驗(yàn)證程序
- 跨多個(gè)驗(yàn)證域的驗(yàn)證系統(tǒng)、驗(yàn)證方法、驗(yàn)證設(shè)備





