[發明專利]中文文本糾錯及驗證方法、裝置、設備及存儲介質有效
| 申請號: | 202210824618.4 | 申請日: | 2022-07-13 |
| 公開(公告)號: | CN115169330B | 公開(公告)日: | 2023-05-02 |
| 發明(設計)人: | 舒暢;陳又新 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F40/232 | 分類號: | G06F40/232;G06F40/211;G06F40/289 |
| 代理公司: | 深圳市沃德知識產權代理事務所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 中文 文本 糾錯 驗證 方法 裝置 設備 存儲 介質 | ||
本發明涉及人工智能技術,揭露了一種中文文本糾錯及驗證方法,包括:對原始糾錯訓練文本集合中的文本標注模板文本,得到標準糾錯訓練文本集合,利用標準糾錯訓練文本集合對包括文本錯誤識別模型及文本糾錯模型的雙階段糾錯模型進行聯合訓練,得到標準糾錯模型,利用標準糾錯模型對待糾錯文本進行糾錯,得到已糾錯文本并構建糾錯對,對糾錯對進行糾錯類型識別,基于糾錯類型,利用編輯距離成本法對所述糾錯對進行糾錯驗證,得到糾錯驗證結果。此外,本發明還涉及區塊鏈技術,所述糾錯驗證結果可存儲在區塊鏈的節點中。本發明還提出一種中文文本糾錯及驗證裝置、電子設備以及可讀存儲介質。本發明可以解決中文糾錯效率較低的問題。
技術領域
本發明涉及人工智能技術領域,尤其涉及一種中文文本糾錯及驗證方法、裝置、電子設備及可讀存儲介質。
背景技術
中文糾錯是人工智能中的重要應用,業內常用的中文糾錯方法大多是遍歷每一個句子進行中文糾錯,主要有如下兩種方法:1、基于編輯距離算法,計算編輯成本,比如增加、刪除、替換等編輯值,與正確的句子庫進行遍歷比對,從而完成糾錯過程。但是這種方法較為機械,需要預先設定好龐大正確的句子庫,且都是使用句子級別,輸入整個句子進行編輯距離計算,由于編輯距離算法對句子中正確的部分也計算了編輯距離成本,計算成本很高,導致糾錯過程耗時很長,其次對未登錄的句子或者詞不能糾錯,糾錯效率較低。2、利用語言模型進行中文糾錯,例如利用編碼器和解碼器結構的模型進行糾錯,但是在解碼的過程中必須按照順序一個一個的解碼獲得糾錯后的句子,效率比較低;或者使用單一BERT的語言模型來做文本糾錯,但是仍需要遍歷句子中所有單個的詞或者多個連續組合的詞來mask,讓模型對mask的位置進行猜測從而達到糾錯效果,效率非常低。
發明內容
本發明提供一種中文文本糾錯及驗證方法、裝置、電子設備及可讀存儲介質,其主要目的在于解決中文糾錯效率較低的問題。
為實現上述目的,本發明提供的一種中文文本糾錯及驗證方法,包括:
獲取原始糾錯訓練文本集合,根據所述原始糾錯訓練文本集合中文本的正確性標注模板文本,得到標準糾錯訓練文本集合;
構建包括文本錯誤識別模型及文本糾錯模型的雙階段糾錯模型;
利用所述標準糾錯訓練文本集合對所述文本錯誤識別模型及文本糾錯模型進行聯合訓練,得到標準糾錯模型;
獲取待糾錯文本,利用所述標準糾錯模型對所述待糾錯文本進行糾錯,得到已糾錯文本;
基于所述已糾錯文本構建糾錯對,利用預設的分類模型對所述糾錯對進行糾錯類型識別,得到糾錯類型;
基于所述糾錯類型,利用編輯距離成本法對所述糾錯對進行糾錯驗證,得到糾錯驗證結果。
可選地,所述構建包括文本錯誤識別模型及文本糾錯模型的雙階段糾錯模型,包括:
獲取第一BERT模型,在所述第一BERT模型后拼接全連接層及輸出層,得到所述文本錯誤識別模型;
獲取第二BERT模型并作為所述文本糾錯模型,對所述文本錯誤識別模型機所述文本糾錯模型進行串聯得到所述雙階段糾錯模型。
可選地,所述利用所述標準糾錯訓練文本集合對所述文本錯誤識別模型及文本糾錯模型進行聯合訓練,得到標準糾錯模型,包括:
利用所述標準糾錯訓練文本集合對所述文本錯誤識別模型進行迭代訓練;
利用訓練完成的文本錯誤識別模型輸出所述標準糾錯訓練文本集合中句子對應的標準字向量;
對所述標準字向量進行復制組合處理,并基于復制后的組合字向量及預設的損失函數對所述文本糾錯模型進行注意力訓練;
匯總訓練完成的文本錯誤識別模型及文本糾錯模型得到所述雙階段糾錯模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210824618.4/2.html,轉載請聲明來源鉆瓜專利網。





