[發明專利]文本糾錯方法、裝置、設備以及存儲介質在審

申請號：	202110251825.0	申請日：	2021-03-08
公開（公告）號：	CN112926306A	公開（公告）日：	2021-06-08
發明（設計）人：	李浩;龐敏輝;趙志新;馮婧超	申請（專利權）人：	北京百度網訊科技有限公司
主分類號：	G06F40/232	分類號：	G06F40/232;G06K9/62
代理公司：	北京英賽嘉華知識產權代理有限責任公司 11204	代理人：	王達佐;馬曉亞
地址：	100085 北京市***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	文本糾錯方法裝置設備以及存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種文本糾錯方法，包括：

接收目標文本；

利用預先訓練的文本糾錯模型，對所述目標文本進行糾錯，得到糾錯文本；

利用預先訓練的分類模型，確定所述糾錯文本的誤糾概率；

響應于確定所述誤糾概率小于預設閾值，輸出所述糾錯文本。

2.根據權利要求1所述的方法，其中，所述文本糾錯模型通過以下步驟得到：

獲取混淆文本集，所述混淆文本集包括多個正確文本以及對應的多個錯誤文本；

將所述錯誤文本作為輸入，將與輸入的錯誤文本對應的正確文本作為期望輸出，訓練得到所述文本糾錯模型。

3.根據權利要求2所述的方法，其中，所述分類模型通過以下步驟得到：

將所述正確文本的標簽設置為第一預設值，將所述錯誤文本的標簽設置為第二預設值；

將所述混淆文本集中的文本作為輸入，將輸入文本的標簽作為期望輸出，訓練得到所述分類模型。

4.根據權利要求2所述的方法，其中，所述獲取混淆文本集，包括：

獲取多個正確文本；

對所述正確文本進行分詞，得到多個詞語；

對所述多個詞語進行替換，確定所述正確文本對應的錯誤文本，得到所述混淆文本集。

5.根據權利要求4所述的方法，其中，所述對所述多個詞語進行替換，確定所述正確文本對應的錯誤文本，包括：

確定所述多個詞語中的字數以及預設的字數與概率的對應關系，確定各詞語的替換概率；

根據所述替換概率從各詞語中確定出目標詞語，對所述目標詞語中的字進行替換，確定所述錯誤文本。

6.根據權利要求4或5所述的方法，其中，所述對所述多個詞語進行替換，包括：

確定所述多個詞語中各字的替換字；

利用所述替換字對所述多個詞語進行替換。

7.根據權利要求6所述的方法，其中，所述確定所述多個詞語中各字的替換字，包括：

將與所述多個詞語中各字字音相近或字形相近的字作為替換字。

8.根據權利要求1所述的方法，其中，所述方法還包括：

響應于確定所述誤糾概率大于或等于所述預設閾值，利用所述糾錯文本以及所述目標文本再次訓練所述文本糾錯模型。

9.一種文本糾錯裝置，包括：

文本接收單元，被配置成接收目標文本；

文本糾錯單元，被配置成利用預先訓練的文本糾錯模型，對所述目標文本進行糾錯，得到糾錯文本；

誤糾判斷單元，被配置成利用預先訓練的分類模型，確定所述糾錯文本的誤糾概率；

文本輸出單元，被配置成響應于確定所述誤糾概率小于預設閾值，輸出所述糾錯文本。

10.根據權利要求9所述的裝置，其中，所述裝置還包括：

文本集獲取單元，被配置成獲取混淆文本集，所述混淆文本集包括多個正確文本以及對應的多個錯誤文本；

第一訓練單元，被配置成將所述錯誤文本作為輸入，將與輸入的錯誤文本對應的正確文本作為期望輸出，訓練得到所述文本糾錯模型。

11.根據權利要求10所述的裝置，其中，所述裝置還包括第二訓練單元，被配置成通過以下步驟得到所述分類模型：

將所述正確文本的標簽設置為第一預設值，將所述錯誤文本的標簽設置為第二預設值；

將所述混淆文本集中的文本作為輸入，將輸入文本的標簽作為期望輸出，訓練得到所述分類模型。

12.根據權利要求10所述的裝置，其中，所述文本集獲取單元進一步被配置成：

獲取多個正確文本；

對所述正確文本進行分詞，得到多個詞語；

對所述多個詞語進行替換，確定所述正確文本對應的錯誤文本，得到所述混淆文本集。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司，未經北京百度網訊科技有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110251825.0/1.html，轉載請聲明來源鉆瓜專利網。

同類專利

專利分類

G 物理

G06 計算；推算；計數
G06F 電數字數據處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】