[發明專利]文本糾錯方法和裝置在審
| 申請號: | 201810030108.3 | 申請日: | 2018-01-12 |
| 公開(公告)號: | CN110032722A | 公開(公告)日: | 2019-07-19 |
| 發明(設計)人: | 吳曉東;邵榮防;郝暉;謝群群;陳賤輝 | 申請(專利權)人: | 北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 中原信達知識產權代理有限責任公司 11219 | 代理人: | 張一軍;楊曉偉 |
| 地址: | 100195 北京市海淀區杏石口路6*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 糾錯 糾錯文本 文本 方法和裝置 候選文本 拼音序列 詞典樹 拼音 計算機技術領域 英文 糾錯結果 中文 匹配 覆蓋率 查找 | ||
本發明公開了一種文本糾錯方法和裝置,涉及計算機技術領域。其中,該方法包括:獲取待糾錯文本的拼音序列;查找混合詞典樹,以獲取與所述待糾錯文本的拼音序列匹配的候選文本集;所述混合詞典樹包括拼音與中文詞及英文詞的對應關系;根據糾錯模型和所述候選文本集確定所述待糾錯文本的糾錯結果。通過以上步驟,能夠很好地處理中文、英文、拼音混合的文本糾錯,提高了文本糾錯的覆蓋率和適用性。
技術領域
本發明涉及計算機技術領域,尤其涉及一種文本糾錯方法和裝置。
背景技術
近年來,查詢糾錯技術在檢索系統得到了廣泛應用,并取得了較好的效果。隨著互聯網行業的發展,查詢糾錯技術在其他互聯網領域(比如電商領域)也受到了越來越多的關注。
現有的查詢糾錯技術主要分為以下兩種:基于用戶會話的文本糾錯方法、基于概率模型的文本糾錯方法。在第一種文本糾錯方法中,主要是根據用戶搜索的會話日志,挖掘出用戶主動改寫的候選糾錯對,并將其作為糾錯后的正確搜索詞。在第二種文本糾錯方法中,主要是將點擊量較高的用戶搜索詞作為糾錯候選集,然后利用統計模型計算候選文本的概率,并將概率最大的作為糾錯后的正確搜索詞。
在實現本發明過程中,發明人發現現有技術中至少存在如下問題:第一、現有技術不能很好地處理中文、英文、拼音混合的查詢糾錯;第二、現有技術對于長尾詞的查詢糾錯處理速度較慢、時效性較差。
發明內容
有鑒于此,本發明提供一種文本糾錯方法和裝置,能夠很好地處理中文、英文、拼音混合的文本糾錯,提高了文本糾錯的覆蓋率和適用性。
為實現上述目的,根據本發明的第一方面,提供了一種文本糾錯方法。
本發明的文本糾錯方法包括:獲取待糾錯文本的拼音序列;查找混合詞典樹,以獲取與所述待糾錯文本的拼音序列匹配的候選文本集;所述混合詞典樹包括拼音與中文詞及英文詞的對應關系;根據糾錯模型和所述候選文本集確定所述待糾錯文本的糾錯結果。
可選地,所述獲取待糾錯文本的拼音序列的步驟包括:若所述待糾錯文本由漢字組成,則將所述漢字的拼音作為待糾錯文本的拼音序列;若所述待糾錯文本由非漢字組成,則將所述非漢字本身作為待糾錯文本的拼音序列;若所述待糾錯文本由漢字和非漢字組成,則將由所述漢字的拼音和所述非漢字本身構成的整體作為待糾錯文本的拼音序列;其中,所述非漢字包括:數字、英文詞和/或拼音。
可選地,所述查找混合詞典樹,以獲取與所述待糾錯文本的拼音序列匹配的候選文本集的步驟包括:基于正向最大匹配算法和反向最大匹配算法查找混合詞典樹,并根據正向最大匹配結果和反向最大匹配結果確定與所述拼音序列匹配的候選文本集。
可選地,所述根據糾錯模型和候選文本集確定所述待糾錯文本的糾錯結果的步驟包括:基于多個糾錯模型分別計算所述候選文本集中每個候選文本的評估因子;將多個評估因子進行融合,以得到所述候選文本的評估值;根據所述評估值確定所述待糾錯文本的糾錯結果。
可選地,所述多個糾錯模型包括以下至少兩個:噪聲信道糾錯模型、編輯距離糾錯模型、拼音距離糾錯模型。
可選地,在所述多個糾錯模型包括噪聲信道糾錯模型、編輯距離糾錯模型和拼音距離糾錯模型的情況下,所述基于多個糾錯模型分別計算所述候選文本集中每個候選文本的評估因子的步驟包括:基于噪聲信道糾錯模型計算所述候選文本的噪聲信道概率,并將其作為所述候選文本的第一評估因子;基于編輯距離糾錯模型計算所述候選文本的編輯距離,并根據編輯距離確定所述候選文本的第二評估因子;基于拼音距離糾錯模型計算所述候選文本的拼音距離,并根據拼音距離確定所述候選文本的第三評估因子。
可選地,所述基于拼音距離糾錯模型計算所述候選文本的拼音距離的步驟包括:對待糾錯文本與候選文本中的字,逐一比較其拼音組成字母是否相同以及聲調是否相同;根據比較結果確定每個字的拼音距離,并將所述每個字的拼音距離的加和作為所述候選文本的拼音距離。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司,未經北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810030108.3/2.html,轉載請聲明來源鉆瓜專利網。





