[發明專利]一種文本糾錯方法、裝置及介質有效
| 申請號: | 202110056370.7 | 申請日: | 2021-01-15 |
| 公開(公告)號: | CN112765962B | 公開(公告)日: | 2022-08-30 |
| 發明(設計)人: | 周鑫 | 申請(專利權)人: | 上海微盟企業發展有限公司 |
| 主分類號: | G06F40/232 | 分類號: | G06F40/232;G06F40/284;G06F40/194 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 王曉坤 |
| 地址: | 200441 上海市寶山*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 糾錯 方法 裝置 介質 | ||
1.一種文本糾錯方法,其特征在于,包括:
預先根據正確的樣本數據獲取正確詞匯合集;
獲取目標關鍵詞,所述目標關鍵詞從用戶輸入的數據中獲取,所述用戶輸入的數據包括:直接的關鍵詞或一句話或一段語句;
通過最短編輯距離算法從所述正確詞匯合集中選擇與所述目標關鍵詞匹配的目標正確詞匯;
所述通過最短編輯距離算法選擇與所述目標關鍵詞匹配的目標正確詞匯后,還包括:
在所述目標正確詞匯的個數是多個的情況下,計算所述目標關鍵詞和各所述目標正確詞匯間的各文本相似度;
選擇所述文本相似度的最高值對應的目標正確詞匯;
所述通過最短編輯距離算法選擇與所述目標關鍵詞匹配的目標正確詞匯后,還包括:
判斷所述目標正確詞匯的個數是否為一個;
如果否,則進入人工選擇模式以便從多個所述目標正確詞匯中選擇一個所述目標正確詞匯;
所述通過最短編輯距離算法選擇與所述目標關鍵詞匹配的目標正確詞匯前,還包括:
判斷所述目標關鍵詞的長度是否符合預設要求;
如果是,則進入所述通過最短編輯距離算法選擇與所述目標關鍵詞匹配的目標正確詞匯的步驟;
所述判斷所述目標關鍵詞的長度是否符合預設要求前,還包括:
判斷所述目標關鍵詞是否全是數字;
如果否,則進入所述判斷所述目標關鍵詞的長度是否符合預設要求的步驟。
2.根據權利要求1所述的文本糾錯方法,其特征在于,所述預先根據正確的樣本數據獲取正確詞匯合集具體包括:
獲取正確的所述樣本數據;
通過NLP分詞服務、CRF分詞服務以及IK分詞服務將所述樣本數據經過拆分和組合得到所述正確詞匯合集。
3.根據權利要求1所述的文本糾錯方法,其特征在于,所述進入所述通過最短編輯距離算法選擇與所述目標關鍵詞匹配的目標正確詞匯的步驟前,還包括:
根據所述正確詞匯合集對應的文本類型對所述目標關鍵詞進行歸一化處理。
4.一種文本糾錯裝置,其特征在于,基于如權利要求1至3任意一項所述的文本糾錯方法,包括:
第一獲取模塊,用于預先根據正確的樣本數據獲取正確詞匯合集;
第二獲取模塊,用于獲取目標關鍵詞,所述目標關鍵詞從用戶輸入的數據中獲取,所述用戶輸入的數據包括:直接的關鍵詞或一句話或一段語句;
第一選擇模塊,用于通過最短編輯距離算法從所述正確詞匯合集中選擇與所述目標關鍵詞匹配的目標正確詞匯;
第一判斷模塊,用于判斷目標正確詞匯的個數是否為一個;
第二選擇模塊,用于如果否,則進入人工選擇模式以便從多個目標正確詞匯中選擇一個目標正確詞匯;
計算模塊,用于在目標正確詞匯的個數是多個的情況下,計算目標關鍵詞和各目標正確詞匯間的各文本相似度;
第三選擇模塊,用于選擇文本相似度的最高值對應的目標正確詞匯;
所述第一獲取模塊具體包括:
第二判斷模塊,用于判斷目標關鍵詞的長度是否符合預設要求;
第四選擇模塊,用于如果是,則進入通過最短編輯距離算法選擇與目標關鍵詞匹配的目標正確詞匯的步驟;
第三判斷模塊,用于判斷目標關鍵詞是否全是數字;
第四判斷模塊,用于如果否,則進入判斷目標關鍵詞的長度是否符合預設要求的步驟。
5.一種文本糾錯裝置,其特征在于,包括:
存儲器,用于存儲計算機程序;
處理器,用于執行所述計算機程序時實現如權利要求1至3任意一項所述的文本糾錯方法的步驟。
6.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質上存儲有計算機程序,所述計算機程序被處理器執行時實現如權利要求1至3任意一項所述的文本糾錯方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海微盟企業發展有限公司,未經上海微盟企業發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110056370.7/1.html,轉載請聲明來源鉆瓜專利網。





