[發明專利]文本糾錯方法和裝置在審
| 申請號: | 201810030108.3 | 申請日: | 2018-01-12 |
| 公開(公告)號: | CN110032722A | 公開(公告)日: | 2019-07-19 |
| 發明(設計)人: | 吳曉東;邵榮防;郝暉;謝群群;陳賤輝 | 申請(專利權)人: | 北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 中原信達知識產權代理有限責任公司 11219 | 代理人: | 張一軍;楊曉偉 |
| 地址: | 100195 北京市海淀區杏石口路6*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 糾錯 糾錯文本 文本 方法和裝置 候選文本 拼音序列 詞典樹 拼音 計算機技術領域 英文 糾錯結果 中文 匹配 覆蓋率 查找 | ||
1.一種文本糾錯方法,其特征在于,所述方法包括:
獲取待糾錯文本的拼音序列;
查找混合詞典樹,以獲取與所述待糾錯文本的拼音序列匹配的候選文本集;所述混合詞典樹包括拼音與中文詞及英文詞的對應關系;
根據糾錯模型和所述候選文本集確定所述待糾錯文本的糾錯結果。
2.根據權利要求1所述的方法,其特征在于,所述獲取待糾錯文本的拼音序列的步驟包括:
若所述待糾錯文本由漢字組成,則將所述漢字的拼音作為待糾錯文本的拼音序列;若所述待糾錯文本由非漢字組成,則將所述非漢字本身作為待糾錯文本的拼音序列;若所述待糾錯文本由漢字和非漢字組成,則將由所述漢字的拼音和所述非漢字本身構成的整體作為待糾錯文本的拼音序列;其中,所述非漢字包括:數字、英文詞和/或拼音。
3.根據權利要求1所述的方法,其特征在于,所述查找混合詞典樹,以獲取與所述待糾錯文本的拼音序列匹配的候選文本集的步驟包括:
基于正向最大匹配算法和反向最大匹配算法查找混合詞典樹,并根據正向最大匹配結果和反向最大匹配結果確定與所述拼音序列匹配的候選文本集。
4.根據權利要求1所述的方法,其特征在于,所述根據糾錯模型和所述候選文本集確定所述待糾錯文本的糾錯結果的步驟包括:
基于多個糾錯模型分別計算所述候選文本集中每個候選文本的評估因子;將多個評估因子進行融合,以得到所述候選文本的評估值;根據所述評估值確定所述待糾錯文本的糾錯結果。
5.根據權利要求4所述的方法,其特征在于,所述多個糾錯模型包括以下至少兩個:噪聲信道糾錯模型、編輯距離糾錯模型、拼音距離糾錯模型。
6.根據權利要求5所述的方法,其特征在于,在所述多個糾錯模型包括噪聲信道糾錯模型、編輯距離糾錯模型和拼音距離糾錯模型的情況下,所述基于多個糾錯模型分別計算所述候選文本集中每個候選文本的評估因子的步驟包括:
基于噪聲信道糾錯模型計算所述候選文本的噪聲信道概率,并將其作為所述候選文本的第一評估因子;基于編輯距離糾錯模型計算所述候選文本的編輯距離,并根據編輯距離確定所述候選文本的第二評估因子;基于拼音距離糾錯模型計算所述候選文本的拼音距離,并根據拼音距離確定所述候選文本的第三評估因子。
7.根據權利要求6所述的方法,其特征在于,所述基于拼音距離糾錯模型計算所述候選文本的拼音距離的步驟包括:
對待糾錯文本與候選文本中的字,逐一比較其拼音組成字母是否相同以及聲調是否相同;根據比較結果確定每個字的拼音距離,并將所述每個字的拼音距離的加和作為所述候選文本的拼音距離。
8.根據權利要求3所述的方法,其特征在于,所述正向最大匹配結果、所述反向最大匹配結果包括:至少一個候選文本片段;
所述方法還包括:對候選文本片段的拼音序列進行編輯操作;根據編輯后的拼音序列查找混合詞典樹,以獲取與所述編輯后的拼音序列匹配的新增候選文本片段,并根據所述候選文本片段、新增候選文本片段構建與所述待糾錯文本的拼音序列匹配的候選文本集。
9.根據權利要求8所述的方法,其特征在于,所述對候選文本片段的拼音序列進行編輯操作的步驟包括:
在所述候選文本片段包括漢字的情況下,對所述漢字的拼音進行模糊音的編輯操作;在所述候選文本片段包括英文詞的情況下,對所述英文詞進行插入、替換、交換和/或刪除的編輯操作。
10.根據權利要求1所述的方法,其特征在于,所述方法還包括:
獲取訓練樣本詞的拼音序列,并根據所述訓練樣本詞的拼音序列構建混合詞典樹。
11.根據權利要求10所述的方法,其特征在于,所述方法還包括:
在所述獲取訓練樣本詞的拼音序列,并根據所述訓練樣本詞的拼音序列構建混合詞典樹的步驟之前,對源數據進行清洗,以得到所述訓練樣本詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司,未經北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810030108.3/1.html,轉載請聲明來源鉆瓜專利網。





