[發明專利]一種用于互聯網信息的錯詞檢測控制方法在審
申請號: | 201910361026.1 | 申請日: | 2019-04-30 |
公開(公告)號: | CN111859089A | 公開(公告)日: | 2020-10-30 |
發明(設計)人: | 李青龍;駱飛;彭璿韜;王雪峰;韓輝 | 申請(專利權)人: | 北京智慧星光信息技術有限公司 |
主分類號: | G06F16/9532 | 分類號: | G06F16/9532;G06F16/33 |
代理公司: | 北京國昊天誠知識產權代理有限公司 11315 | 代理人: | 劉昕 |
地址: | 100080 北京市海*** | 國省代碼: | 北京;11 |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 一種 用于 互聯網 信息 檢測 控制 方法 | ||
1.一種用于互聯網信息的錯詞檢測控制方法,其特征在于,包括:
步驟A、系統在字詞標準庫中通過字典查找樹的方式,檢索需要進行錯詞檢測的互聯網信息中是否包含組成詞組的字符串,判斷若存在,則返回該字符串及字符串在所述互聯網信息中位置的檢索結果信息,執行步驟B;
步驟B、系統通過字符位置查找映射的方式,獲取所述檢索結果信息中匹配到的每個字符串在詞組中的位置及該字符串的長度的信息;通過獲取的信息,截取需要進行錯詞檢測的互聯網信息的文本內容信息;
步驟C、系統將截取到的所述文本內容信息,傳入文本糾錯樹中,獲取截取到的所述文本內容信息中各個詞組與組成文本糾錯樹的標準詞組之間的編輯距離為設定閥值的截取詞組。
2.根據權利要求1所述的方法,其特征在于,
還包括:所述系統在字詞標準庫中通過字典查找樹的方式,檢索需要進行錯詞檢測的互聯網信息中是否包含組成詞組的字符串,是指:所述系統在字詞標準庫中通過由一種字符串構成的存儲結構,快速查詢需要進行錯詞檢測的互聯網信息中是否包含構成該存儲結構的字符串。
3.根據權利要求1所述的方法,其特征在于,
還包括:所述系統通過字符位置查找映射的方式,獲取所述檢索結果信息中匹配到的每個字符串在詞組中的位置及該字符串的長度的信息,是指:系統通過一種快速定位字符串的映射結構,該映射結構用于存儲所述字詞標準庫中每個詞的字符串及字符串在這個詞中的位置和字符串的長度。
4.根據權利要求1所述的方法,其特征在于,
還包括:所述文本糾錯樹是一種由字符串組成的快速判斷樹,用于檢測傳入字符串與組成字符串之間的編輯距離是否為設定閥值。
5.根據權利要求1至4任一所述的方法,其特征在于,
所述步驟A中還包括:所述系統對需要進行錯詞檢測的互聯網信息進行分詞操作,得到分詞組合A=[a1,a2,a3,......,an],其中n為正整數。
6.根據權利要求5所述的方法,其特征在于,
進一步包括:所述系統要根據預設周期對所述字詞標準庫進行更新,增加新的字詞內容。
7.根據權利要求6所述的方法,其特征在于,
所述步驟C后還包括:所述系統顯示需要進行錯詞檢測的互聯網信息中含有錯別字的詞組,結束檢測操作。
8.根據權利要求6所述的方法,其特征在于,
所述步驟A還包括:所述系統在字詞標準庫中通過字典查找樹的方式,檢索需要進行錯詞檢測的互聯網信息中是否包含組成詞組的字符串,判斷若不存在,則結束檢測操作。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京智慧星光信息技術有限公司,未經北京智慧星光信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910361026.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:二維壓力伺服變量泵
- 下一篇:一種高維數據快速搜索方法
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置