[發(fā)明專利]對文本進行糾錯的方法、裝置、電子設備和存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202110446551.0 | 申請日: | 2021-04-23 |
| 公開(公告)號: | CN113051896B | 公開(公告)日: | 2023-08-18 |
| 發(fā)明(設計)人: | 趙志新;龐敏輝;肖巖 | 申請(專利權(quán))人: | 百度在線網(wǎng)絡技術(北京)有限公司 |
| 主分類號: | G06F40/232 | 分類號: | G06F40/232;G06F40/216;G06F40/237;G06F40/284;G06F40/289;G06N3/08;G06N3/0442;G06N3/045;G06N3/0464 |
| 代理公司: | 中科專利商標代理有限責任公司 11021 | 代理人: | 呂朝蕙 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 進行 糾錯 方法 裝置 電子設備 存儲 介質(zhì) | ||
1.一種對文本進行糾錯的方法,包括:
獲取待糾錯文本;
確定所述待糾錯文本中的備選待糾錯詞語和針對所述備選待糾錯詞語的已糾錯文本;
采用統(tǒng)計語言模型分別確定所述待糾錯文本的第一困惑度和所述已糾錯文本的第二困惑度;
在所述第一困惑度大于所述第二困惑度的情況下,采用深度學習語言模型分別確定所述待糾錯文本的第三困惑度和所述已糾錯文本的第四困惑度;以及
根據(jù)所述第三困惑度和所述第四困惑度,確定所述備選待糾錯詞語中的待糾錯詞語,
其中,所述確定所述待糾錯文本中的備選待糾錯詞語和針對所述備選待糾錯詞語的已糾錯文本包括:
基于預先設置的錯別詞庫,確定所述待糾錯文本中的備選待糾錯詞語;
基于預先設置的正確詞庫,確定針對所述備選待糾錯詞語的正確詞語;所述正確詞庫中包括對應于所述錯別詞庫中的每個錯別詞語的正確詞語;以及
采用針對所述備選待糾錯詞語的正確詞語替換所述待糾錯文本中的所述備選待糾錯詞語,得到針對所述備選待糾錯詞語的已糾錯文本。
2.根據(jù)權(quán)利要求1所述的方法,其中:
所述錯別詞庫包括針對目標垂直領域的混淆信息集;
所述正確詞庫包括針對所述目標垂直領域的核心詞集;所述混淆信息集是基于所述核心詞集構(gòu)建的。
3.根據(jù)權(quán)利要求2所述的方法,其中,確定所述待糾錯文本中的備選待糾錯詞語包括:
采用預定匹配算法查詢預定字典樹,根據(jù)所述待糾錯文本中與所述預定字典樹相匹配的詞語,確定所述備選待糾錯詞語,
其中,所述預定字典樹是基于所述混淆信息集構(gòu)建的。
4.根據(jù)權(quán)利要求2所述的方法,還包括通過以下方式基于所述核心詞集構(gòu)建所述混淆信息集:
對于所述核心詞集中字數(shù)小于預定值的第一核心詞語,從預定字庫中選擇與所述第一核心詞語中的字相似的相似字,并采用所述相似字替代所述第一核心詞語中的字,得到針對所述第一核心詞語的混淆詞語;
對于所述核心詞集中字數(shù)大于或等于所述預定值的第二核心詞語,確定所述第二核心詞語的拼音串,并將與所述第二核心詞語的拼音串相似的拼音串作為針對所述第二核心詞語的混淆拼音串;以及
基于所述混淆詞語和所述混淆拼音串構(gòu)建所述混淆信息集。
5.根據(jù)權(quán)利要求4所述的方法,其中,所述基于所述核心詞集構(gòu)建所述混淆信息集還包括:
對于所述第一核心詞語,從預定高頻詞庫中選擇與所述第一核心詞語的發(fā)音相似的詞,得到針對所述第一核心詞語的混淆詞語。
6.?根據(jù)權(quán)利要求3所述的方法,其中,所述混淆信息集包括多個混淆詞語;所述方法還包括通過以下方式基于所述混淆信息集構(gòu)建所述預定字典樹:
針對所述多個混淆詞語中的每個第一詞語,構(gòu)建針對所述每個第一詞語的第一節(jié)點分支,所述第一節(jié)點分支中的每個第一節(jié)點指示所述每個第一詞語中的一個字;以及
采用預定字符串匹配算法向所述每個第一節(jié)點添加失配指針,得到第一字典樹。
7.?根據(jù)權(quán)利要求6所述的方法,其中,所述混淆信息集還包括多個混淆拼音串,所述多個混淆拼音串中的每個拼音串針對所述核心詞集中的一個核心詞語;基于所述混淆信息集構(gòu)建所述預定字典樹還包括:
構(gòu)建針對所述每個拼音串的第二節(jié)點分支,所述第二節(jié)點分支中的每個第二節(jié)點指示所述每個拼音串中的一個拼音;以及
采用預定字符串匹配算法向所述每個第二節(jié)點添加失配指針,得到第二字典樹。
該專利技術資料僅供研究查看技術是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于百度在線網(wǎng)絡技術(北京)有限公司,未經(jīng)百度在線網(wǎng)絡技術(北京)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110446551.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種漁輪磁力剎車裝置
- 下一篇:一種真空-超聲復合釬焊裝置及方法





