[發明專利]一種文本檢錯方法及裝置有效
| 申請號: | 201811458549.X | 申請日: | 2018-11-30 |
| 公開(公告)號: | CN111339756B | 公開(公告)日: | 2023-05-16 |
| 發明(設計)人: | 張占秋;李帥;王偉瑋;王杰 | 申請(專利權)人: | 北京嘀嘀無限科技發展有限公司 |
| 主分類號: | G06F40/232 | 分類號: | G06F40/232 |
| 代理公司: | 北京超成律師事務所 11646 | 代理人: | 鄧超 |
| 地址: | 100193 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 檢錯 方法 裝置 | ||
本申請實施例提供了一種文本檢錯方法及裝置,其中,首先基于待檢測文本所屬領域,獲取與該領域匹配的存儲有正確文本的語料庫,之后利用獲取的語料庫初步篩選待檢測文本中的疑似錯誤字符和疑似錯誤詞匯,之后再基于疑似錯誤詞匯和疑似錯誤字符篩選出準確度更高的目標疑似錯誤詞匯,最后,利用基于每個目標疑似錯誤詞匯出現在待檢測文本的當前位置的概率,從目標疑似錯誤詞匯中進行篩選,得到最終的目標錯誤字符。本申請實施例利用與待檢測文本所屬領域匹配的語料庫進行文本檢錯,能夠有效提高文本檢錯的精度。并且,本申請實施例對初步篩選得到疑似錯誤字符和疑似錯誤詞匯,進一步進行了取交集和概率篩選的處理,能夠有效提高文本檢錯的準確度。
技術領域
本申請涉及文本處理技術領域,尤其是涉及一種文本檢錯方法及裝置。
背景技術
隨著科技的發展,在智能服務的場景中需要對用戶或客服的對話文本進行語義理解和意圖分類等操作,繼而根據得到的語義或意圖執行對應的操作。當前,通過人工手寫、利用輸入法輸入或利用語音辨識得到的文本中不可避免的存在錯別字符,這些錯別字符對上述語義理解和意圖分類帶來很大的困難,嚴重影響了后續語義理解或意圖分類的準確度,繼而造成智能服務的服務質量受損。
現有技術中存在一些對文本進行檢錯的方法,但是這些檢錯方法存在檢錯精確度低或適用性差的缺陷,例如有些文本檢錯方法只適用于某些文本,對其他文本的檢錯精度很低。
發明內容
有鑒于此,本申請的目的在于提供一種文本檢錯方法和裝置,以提高文本的檢錯精確度和適應性。
第一方面,本申請實施例提供了一種文本檢錯方法,包括:
基于待檢測文本所屬領域,獲取與該領域匹配的存儲有正確文本的語料庫;
基于所述存儲有正確文本的語料庫,從待檢測文本中篩選疑似錯誤語料;所述疑似錯誤語料包括疑似錯誤詞匯和疑似錯誤字符;
基于所述疑似錯誤詞匯和疑似錯誤字符,確定目標疑似錯誤詞匯;
基于每個目標疑似錯誤詞匯出現在所述待檢測文本的當前位置的概率,從所述目標疑似錯誤詞匯中篩選目標錯誤字符。
在一種可能的實施方式中,所述基于所述疑似錯誤詞匯和疑似錯誤字符,確定目標疑似錯誤詞匯,包括:
從所述待檢測文本中獲取每個所述疑似錯誤字符所屬的詞匯,并從所述疑似錯誤字符所屬的詞匯中篩選屬于所述疑似錯誤詞匯的詞匯,得到目標疑似錯誤詞匯。
在一種可能的實施方式中,所述基于待檢測文本所屬領域,獲取與該領域匹配的存儲有正確文本的語料庫,包括:
獲取所述待檢測文本的生成時間以及多個待選語料庫的最新更新時間;
確定所述待檢測文本的生成時間與每個所述待選語料庫的最新更新時間的時間差;
基于所述時間差以及所述待檢測文本所屬領域,從所述待選語料庫中選取所述存儲有正確文本的語料庫。
在一種可能的實施方式中,所述基于所述時間差以及所述待檢測文本所屬領域,從所述待選語料庫中選取所述存儲有正確文本的語料庫,包括:
在與所述待檢測文本所屬領域匹配的待選語料庫中,選取小于預定時間長度的時間差對應的待選語料庫;
將選取的待選語料庫進行合并,得到所述存儲有正確文本的語料庫。
在一種可能的實施方式中,所述基于所述時間差以及所述待檢測文本所屬領域,從所述待選語料庫中選取所述存儲有正確文本的語料庫,包括:
在與所述待檢測文本所屬領域匹配的待選語料庫中,選取最小的時間差對應的待選語料庫,得到所述存儲有正確文本的語料庫。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京嘀嘀無限科技發展有限公司,未經北京嘀嘀無限科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811458549.X/2.html,轉載請聲明來源鉆瓜專利網。





