[發明專利]對文本進行糾錯的方法、裝置、電子設備和存儲介質有效
| 申請號: | 202110446551.0 | 申請日: | 2021-04-23 |
| 公開(公告)號: | CN113051896B | 公開(公告)日: | 2023-08-18 |
| 發明(設計)人: | 趙志新;龐敏輝;肖巖 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G06F40/232 | 分類號: | G06F40/232;G06F40/216;G06F40/237;G06F40/284;G06F40/289;G06N3/08;G06N3/0442;G06N3/045;G06N3/0464 |
| 代理公司: | 中科專利商標代理有限責任公司 11021 | 代理人: | 呂朝蕙 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 進行 糾錯 方法 裝置 電子設備 存儲 介質 | ||
本公開是關于一種對文本進行糾錯的方法、裝置、電子設備和存儲介質,應用于人工智能領域,具體應用于自然語言處理、深度學習和大數據領域。對文本進行糾錯的方法的具體實現方案為:獲取待糾錯文本;確定待糾錯文本中的備選待糾錯詞語和針對備選待糾錯詞語的已糾錯文本;采用統計語言模型分別確定待糾錯文本的第一困惑度和已糾錯文本的第二困惑度;在第一困惑度大于第二困惑度的情況下,采用深度學習語言模型分別確定待糾錯文本的第三困惑度和已糾錯文本的第四困惑度;以及根據第三困惑度和第四困惑度,確定備選待糾錯詞語中的待糾錯詞語。
技術領域
本公開涉及人工智能領域,具體涉及自然語言處理、深度學習和大數據領域,更具體地涉及一種對文本進行糾錯的方法、裝置、電子設備和存儲介質。
背景技術
隨著電子技術的發展,用戶通常通過文本輸入或語音輸入來實現與電子設備的交互。為了提高理解交互的信息的準確性,電子設備通常需要對獲得的文本或語音轉換得到的文本進行糾錯。
發明內容
本公開提供了一種提高糾錯準確性和糾錯效率的對文本進行糾錯的方法、裝置、電子設備和存儲介質。
根據本公開的一個方面,提供了一種對文本進行糾錯的方法,包括:獲取待糾錯文本;確定待糾錯文本中的備選待糾錯詞語和針對備選待糾錯詞語的已糾錯文本;采用統計語言模型分別確定待糾錯文本的第一困惑度和已糾錯文本的第二困惑度;在第一困惑度大于第二困惑度的情況下,采用深度學習語言模型分別確定待糾錯文本的第三困惑度和已糾錯文本的第四困惑度;以及根據第三困惑度和第四困惑度,確定備選待糾錯詞語中的待糾錯詞語。
根據本公開的另一個方面,提供了一種對文本進行糾錯的裝置,包括:文本獲取模塊,用于獲取待糾錯文本;備選詞語確定模塊,用于確定待糾錯文本中的備選待糾錯詞語和針對備選待糾錯詞語的已糾錯文本;第一困惑確定模塊,用于采用統計語言模型分別確定待糾錯文本的第一困惑度和已糾錯文本的第二困惑度;第二困惑確定模塊,用于在第一困惑度大于第二困惑度的情況下,采用深度學習語言模型分別確定待糾錯文本的第三困惑度和已糾錯文本的第四困惑度;以及糾錯詞語確定模塊,用于根據第三困惑度和第四困惑度,確定備選待糾錯詞語中的待糾錯詞語。
根據本公開的另一個方面,提供了一種電子設備,包括:至少一個處理器;以及與至少一個處理器通信連接的存儲器;其中,存儲器存儲有可被至少一個處理器執行的指令,指令被至少一個處理器執行,以使至少一個處理器能夠執行本公開提供的對文本進行糾錯的方法。
根據本公開的另一個方面,提供了一種存儲有計算機指令的非瞬時計算機可讀存儲介質,其中,計算機指令用于使計算機執行本公開提供的對文本進行糾錯的方法。
根據本公開的另一個方面,提供了一種計算機程序產品,包括計算機程序,所述計算機程序在被處理器執行時實現本公開提供的對文本進行糾錯的方法。
本公開實施例在糾錯文本時,先采用統計語言模型在粗粒度層級來確定糾錯前后文本的困惑度,在糾錯后文本的困惑度降低的情況下才使用深度學習語言模型在細粒度層級確定困惑度,并根據確定的細粒度層級的困惑度從備選待糾錯詞語中挑選待糾錯詞語,可以在一定程度上減少確定待糾錯詞所需的計算量,并因此能夠提高用戶體驗。該實施例的方法在對響應時間要求嚴格的場景中,以上有益效果更為顯著。
應當理解,本部分所描述的內容并非旨在標識本公開的實施例的關鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。
附圖說明
附圖用于更好地理解本方案,不構成對本公開的限定。其中:
圖1是根據本公開實施例的對文本進行糾錯的方法、裝置、電子設備和存儲介質的應用場景示意圖;
圖2是根據本公開實施例的對文本進行糾錯的方法的流程示意圖;
圖3是根據本公開實施例的確定備選待糾錯詞語和已糾錯文本的原理示意圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110446551.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種漁輪磁力剎車裝置
- 下一篇:一種真空-超聲復合釬焊裝置及方法





