[發明專利]文本糾錯方法、裝置、設備以及存儲介質在審
| 申請號: | 202110251825.0 | 申請日: | 2021-03-08 |
| 公開(公告)號: | CN112926306A | 公開(公告)日: | 2021-06-08 |
| 發明(設計)人: | 李浩;龐敏輝;趙志新;馮婧超 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F40/232 | 分類號: | G06F40/232;G06K9/62 |
| 代理公司: | 北京英賽嘉華知識產權代理有限責任公司 11204 | 代理人: | 王達佐;馬曉亞 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 糾錯 方法 裝置 設備 以及 存儲 介質 | ||
1.一種文本糾錯方法,包括:
接收目標文本;
利用預先訓練的文本糾錯模型,對所述目標文本進行糾錯,得到糾錯文本;
利用預先訓練的分類模型,確定所述糾錯文本的誤糾概率;
響應于確定所述誤糾概率小于預設閾值,輸出所述糾錯文本。
2.根據權利要求1所述的方法,其中,所述文本糾錯模型通過以下步驟得到:
獲取混淆文本集,所述混淆文本集包括多個正確文本以及對應的多個錯誤文本;
將所述錯誤文本作為輸入,將與輸入的錯誤文本對應的正確文本作為期望輸出,訓練得到所述文本糾錯模型。
3.根據權利要求2所述的方法,其中,所述分類模型通過以下步驟得到:
將所述正確文本的標簽設置為第一預設值,將所述錯誤文本的標簽設置為第二預設值;
將所述混淆文本集中的文本作為輸入,將輸入文本的標簽作為期望輸出,訓練得到所述分類模型。
4.根據權利要求2所述的方法,其中,所述獲取混淆文本集,包括:
獲取多個正確文本;
對所述正確文本進行分詞,得到多個詞語;
對所述多個詞語進行替換,確定所述正確文本對應的錯誤文本,得到所述混淆文本集。
5.根據權利要求4所述的方法,其中,所述對所述多個詞語進行替換,確定所述正確文本對應的錯誤文本,包括:
確定所述多個詞語中的字數以及預設的字數與概率的對應關系,確定各詞語的替換概率;
根據所述替換概率從各詞語中確定出目標詞語,對所述目標詞語中的字進行替換,確定所述錯誤文本。
6.根據權利要求4或5所述的方法,其中,所述對所述多個詞語進行替換,包括:
確定所述多個詞語中各字的替換字;
利用所述替換字對所述多個詞語進行替換。
7.根據權利要求6所述的方法,其中,所述確定所述多個詞語中各字的替換字,包括:
將與所述多個詞語中各字字音相近或字形相近的字作為替換字。
8.根據權利要求1所述的方法,其中,所述方法還包括:
響應于確定所述誤糾概率大于或等于所述預設閾值,利用所述糾錯文本以及所述目標文本再次訓練所述文本糾錯模型。
9.一種文本糾錯裝置,包括:
文本接收單元,被配置成接收目標文本;
文本糾錯單元,被配置成利用預先訓練的文本糾錯模型,對所述目標文本進行糾錯,得到糾錯文本;
誤糾判斷單元,被配置成利用預先訓練的分類模型,確定所述糾錯文本的誤糾概率;
文本輸出單元,被配置成響應于確定所述誤糾概率小于預設閾值,輸出所述糾錯文本。
10.根據權利要求9所述的裝置,其中,所述裝置還包括:
文本集獲取單元,被配置成獲取混淆文本集,所述混淆文本集包括多個正確文本以及對應的多個錯誤文本;
第一訓練單元,被配置成將所述錯誤文本作為輸入,將與輸入的錯誤文本對應的正確文本作為期望輸出,訓練得到所述文本糾錯模型。
11.根據權利要求10所述的裝置,其中,所述裝置還包括第二訓練單元,被配置成通過以下步驟得到所述分類模型:
將所述正確文本的標簽設置為第一預設值,將所述錯誤文本的標簽設置為第二預設值;
將所述混淆文本集中的文本作為輸入,將輸入文本的標簽作為期望輸出,訓練得到所述分類模型。
12.根據權利要求10所述的裝置,其中,所述文本集獲取單元進一步被配置成:
獲取多個正確文本;
對所述正確文本進行分詞,得到多個詞語;
對所述多個詞語進行替換,確定所述正確文本對應的錯誤文本,得到所述混淆文本集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110251825.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種多功能按摩帽及按摩方法
- 下一篇:一種緩釋藥劑檢驗用分離設備





