[發明專利]糾錯對的質量評估方法、裝置、設備及存儲介質有效
| 申請號: | 201911039234.6 | 申請日: | 2019-10-29 |
| 公開(公告)號: | CN110781665B | 公開(公告)日: | 2023-04-07 |
| 發明(設計)人: | 康戰輝 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F40/232 | 分類號: | G06F40/232 |
| 代理公司: | 北京三高永信知識產權代理有限責任公司 11138 | 代理人: | 邢惠童 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 糾錯 質量 評估 方法 裝置 設備 存儲 介質 | ||
本申請公開了一種糾錯對的質量評估方法、裝置、設備及存儲介質,屬于信息處理領域。方法包括:獲取待評估的糾錯對,糾錯對包括第一字符串和第二字符串;確定第一字符串的第一部分和第二部分,以及第二字符串的第三部分和第四部分,第一部分與第三部分相同,第二部分與第四部分不同;根據參考語料,確定第一部分與第二部分之間的互信息值,以及第三部分與第四部分之間的互信息值,得到第一互信息值和第二互信息值;根據第一互信息值和第二互信息值,對糾錯對進行質量評估。本申請可以實現對糾錯對的自動化質量評估,減少對人力資源的消耗,提高質量評估的效率和準確度。
技術領域
本申請涉及信息處理領域,特別涉及一種糾錯對的質量評估方法、裝置、設備及存儲介質。
背景技術
用戶在使用搜索引擎進行搜索時,可能會因認知或打字失誤等原因導致輸入包含錯誤字符的第一字符串。為了提高搜索準確性,搜索系統可以先根據多個糾錯對,對第一字符串進行識別,并將其糾正為正確的字符串,即第二字符串,再將第二字符串發往搜索引擎進行搜索。
為了便于對第一字符串進行糾錯,往往需要大量人員預先對糾錯語料包括的多個第一字符串進行人工糾錯和標注,得到大量糾錯對,每個糾錯對包括一個第一字符串和對應的一個第二字符串。但是由于糾錯語料包括的第一字符串的數量巨大,不少第一字符串不一定屬于標注人員擅長的領域,因此,還需要對人工標注得到的糾錯對進行質量評估。
相關技術中,在通過人工標注得到大量糾錯對之后,通常采用多層人工審核和人工交叉審核的方式,來對糾錯對進行人工質量評估,以評估糾錯對是否符合質量要求。但是人工質量評估的方式將耗費大量人力資源,評估效率較低,且評估準確性容易受到人為因素的影響。
發明內容
本申請實施例提供了一種糾錯對的質量評估方法、裝置、設備及存儲介質,可以用于解決相關技術中存在的通過人工方式進行質量評估會耗費大量人力資源,評估效率較低,且評估準確性容易受到人為因素影響的問題。所述技術方案如下:
一方面,提供了一種糾錯對的質量評估方法,所述方法包括:
獲取待評估的糾錯對,所述糾錯對包括第一字符串和第二字符串,所述第二字符串是對所述第一字符串進行字符校正得到;
確定所述第一字符串的第一部分和第二部分,以及所述第二字符串的第三部分和第四部分,所述第一部分與所述第三部分相同,所述第二部分與所述第四部分不同;
根據參考語料,確定所述第一部分與所述第二部分之間的互信息值,得到第一互信息值,所述第一互信息值用于指示所述第一部分和所述第二部分在所述參考語料中的關聯程度;
根據所述參考語料,確定所述第三部分與所述第四部分之間的互信息值,得到第二互信息值,所述第二互信息值用于指示所述第三部分和所述第四部分在所述參考語料中的關聯程度;
根據所述第一互信息值和所述第二互信息值,對所述糾錯對進行質量評估。
另一方面,提供了一種糾錯對的質量評估裝置,所述裝置包括:
獲取模塊,用于獲取待評估的糾錯對,所述糾錯對包括第一字符串和第二字符串,所述第二字符串是對所述第一字符串進行字符校正得到;
第一確定模塊,用于確定所述第一字符串的第一部分和第二部分,以及所述第二字符串的第三部分和第四部分,所述第一部分與所述第三部分相同,所述第二部分與所述第四部分不同;
第二確定模塊,用于根據參考語料,確定所述第一部分與所述第二部分之間的互信息值,得到第一互信息值,所述第一互信息值用于指示所述第一部分和所述第二部分在所述參考語料中的關聯程度;
第三確定模塊,用于根據所述參考語料,確定所述第三部分與所述第四部分之間的互信息值,得到第二互信息值,所述第二互信息值用于指示所述第三部分和所述第四部分在所述參考語料中的關聯程度;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911039234.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:文件修復方法及裝置
- 下一篇:基于生成式對抗網絡的自然語言處理文本建模





