[發明專利]糾錯對的質量評估方法、裝置、設備及存儲介質有效
| 申請號: | 201911039234.6 | 申請日: | 2019-10-29 |
| 公開(公告)號: | CN110781665B | 公開(公告)日: | 2023-04-07 |
| 發明(設計)人: | 康戰輝 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F40/232 | 分類號: | G06F40/232 |
| 代理公司: | 北京三高永信知識產權代理有限責任公司 11138 | 代理人: | 邢惠童 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 糾錯 質量 評估 方法 裝置 設備 存儲 介質 | ||
1.一種糾錯對的質量評估方法,其特征在于,所述方法包括:
獲取待評估的糾錯對,所述糾錯對包括第一字符串和第二字符串,所述第二字符串是對所述第一字符串進行字符校正得到;
確定所述第一字符串的第一部分和第二部分,以及所述第二字符串的第三部分和第四部分,所述第一部分與所述第三部分相同,所述第二部分與所述第四部分不同;
根據參考語料,確定所述第一部分與所述第二部分之間的互信息值,得到第一互信息值,所述第一互信息值用于指示所述第一部分和所述第二部分在所述參考語料中的關聯程度;
根據所述參考語料,確定所述第三部分與所述第四部分之間的互信息值,得到第二互信息值,所述第二互信息值用于指示所述第三部分和所述第四部分在所述參考語料中的關聯程度;
根據所述第一互信息值和所述第二互信息值之間的差值,對所述糾錯對進行質量評估。
2.根據權利要求1所述的方法,其特征在于,所述第一部分和所述第二部分均包括至少一個分詞;
所述根據參考語料,確定所述第一部分與所述第二部分之間的互信息值,包括:
根據所述參考語料,確定所述第一部分中的各個分詞與所述第二部分中的各個分詞之間的互信息值;
將所述第一部分中的各個分詞與所述第二部分中的各個分詞之間的互信息值進行相加,得到所述第一部分與所述第二部分之間的互信息值。
3.根據權利要求2所述的方法,其特征在于,所述根據所述參考語料,確定所述第一部分中的各個分詞與所述第二部分中的各個分詞之間的互信息值,包括:
對于所述第一部分中的第一分詞和所述第二部分中的第二分詞,確定所述第一分詞和所述第二分詞分別在所述參考語料中出現的次數,以及所述第一分詞和所述第二分詞在所述參考語料中共現的次數,所述第一分詞為所述第一部分中的任一分詞,所述第二分詞為所述第二部分中的任一分詞;
根據所述第一分詞和所述第二分詞分別在所述參考語料中出現的次數,以及所述第一分詞和所述第二分詞在所述參考語料中共現的次數,確定所述第一分詞與所述第二分詞之間的互信息值。
4.根據權利要求3所述的方法,其特征在于,所述確定所述第一分詞和所述第二分詞在所述參考語料中共現的次數,包括:
按照預設窗口長度,對所述參考語料進行遍歷;
若遍歷到的每個預設窗口長度的字符串中同時出現所述第一分詞和所述第二分詞的次數均不大于1,則將遍歷到的所有預設窗口長度的字符串中同時出現所述第一分詞和所述第二分詞的次數,確定為所述第一分詞和所述第二分詞在所述參考語料中共現的次數。
5.根據權利要求4所述的方法,其特征在于,所述按照預設窗口長度,對所述參考語料進行遍歷之后,還包括:
若遍歷到的任一預設窗口長度的字符串中同時出現所述第一分詞和所述第二分詞的次數大于1,則將遍歷到的所有預設窗口長度的字符串中同時出現所述第一分詞和所述第二分詞的次數與預設參數的比值,確定為所述第一分詞和所述第二分詞在所述參考語料中共現的次數。
6.根據權利要求3所述的方法,其特征在于,所述根據所述第一分詞和所述第二分詞分別在所述參考語料中出現的次數,以及所述第一分詞和所述第二分詞在所述參考語料中共現的次數,確定所述第一分詞與所述第二分詞之間的互信息值,包括:
確定所述第一分詞在所述參考語料中出現的次數,所述第二分詞在所述參考語料中出現的次數,以及所述第一分詞和所述第二分詞在所述參考語料中共現的次數分別與所述參考語料包括的分詞總數之間的比值,得到第一比值、第二比值和第三比值;
根據所述第一比值、所述第二比值和所述第三比值,確定所述第一分詞與所述第二分詞之間的互信息值。
7.根據權利要求1-6任一所述的方法,其特征在于,所述根據所述第一互信息值和所述第二互信息值之間的差值,對所述糾錯對進行質量評估之前,還包括:
確定所述第一互信息值與所述第二互信息值之間的差值;
所述根據所述第一互信息值和所述第二互信息值之間的差值,對所述糾錯對進行質量評估,包括:
若所述差值的絕對值大于預設閾值,則確定所述糾錯對符合質量要求。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911039234.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:文件修復方法及裝置
- 下一篇:基于生成式對抗網絡的自然語言處理文本建模





