[發明專利]候選詞評估方法、裝置、計算機設備和存儲介質有效
| 申請號: | 201810320358.0 | 申請日: | 2018-04-11 |
| 公開(公告)號: | CN108628826B | 公開(公告)日: | 2022-09-06 |
| 發明(設計)人: | 李賢 | 申請(專利權)人: | 廣州視源電子科技股份有限公司 |
| 主分類號: | G06F40/232 | 分類號: | G06F40/232;G06F40/284;G06F40/216 |
| 代理公司: | 華進聯合專利商標代理有限公司 44224 | 代理人: | 馮右明 |
| 地址: | 510530 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 候選 評估 方法 裝置 計算機 設備 存儲 介質 | ||
1.一種候選詞評估方法,其特征在于,包括:
檢測到錯詞,獲取錯詞對應的多個候選詞;所述錯詞包括基于用戶的書寫操作得到的詞;
確定各候選詞與錯詞的相似度,所述相似度根據各候選詞與錯詞的最長公共子序列率和/或最長公共子串率得到;所述最長公共子序列率和/或所述最長公共子串率用于表征各候選詞與錯詞之間相同字符的多寡,以及相同字符所占的比例;
確定各候選詞在所述錯詞位置的語言環境概率;
獲取所述錯詞相對于各候選詞的出錯信息;所述出錯信息用于表征所述錯詞與各候選詞的區別信息;
根據所述相似度、所述語言環境概率以及出錯信息,確定各候選詞對應的評估得分;
其中,所述確定各候選詞在所述錯詞位置的語言環境概率,包括:
根據預設的語言模型計算各候選詞在所述錯詞位置的概率,將該概率的log值作為所述候選詞的語言環境概率;
所述根據所述相似度、所述語言環境概率以及出錯信息,確定各候選詞對應的評估得分,包括:
根據所述相似度、所述語言環境概率的倒數以及出錯信息,確定各候選詞對應的評估得分;
所述出錯信息包括以下任一項或多項:
所述錯詞與候選詞的字符數量是否相同的信息、所述錯詞與候選詞的偏旁是否相同的信息、所述錯詞中是否含有非法符號的信息。
2.根據權利要求1所述的候選詞評估方法,其特征在于,
所述語言模型包括:N-Gram模型、BiLSTM模型或者LSTM模型。
3.根據權利要求1至2任一所述的候選詞評估方法,其特征在于,所述錯詞相對于各候選詞的出錯信息中包括:所述錯詞與候選詞是否首字母相同的信息;
所述根據所述語言環境概率以及出錯信息,確定各候選詞對應的評估得分,包括:
若錯詞與候選詞首字母相同,根據所述相似度、所述語言環境概率以及第一系數計算所述候選詞的評估得分;
若錯詞與候選詞首字母不同,根據所述相似度、所述語言環境概率以及第二系數計算所述候選詞的評估得分。
4.根據權利要求3所述的候選詞評估方法,其特征在于,還包括步驟:
檢測到待檢測詞不在預設詞庫中,確定所述待檢測詞為錯詞。
5.根據權利要求4所述的候選詞評估方法,其特征在于,在檢測出錯詞之后,還包括:
計算所述錯詞與所述詞庫中已知詞的編輯距離,選取編輯距離在設定范圍內的已知詞,得到所述錯詞對應的多個候選詞。
6.根據權利要求1、2、4、5中任一所述的候選詞評估方法,其特征在于,還包括:
根據所述評估得分從所述多個候選詞中確定出所述錯詞對應的糾錯詞,用所述糾錯詞對所述錯詞進行糾錯;
和/或,
根據所述評估得分對所述多個候選詞進行排序,顯示排序后的所述多個候選詞。
7.根據權利要求6所述的候選詞評估方法,其特征在于,所述根據所述評估得分從所述多個候選詞中確定出所述錯詞對應的糾錯詞,包括:
從多個候選詞中確定出所述評估得分最高的候選詞,作為所述錯詞對應的糾錯詞。
8.根據權利要求1所述的候選詞評估方法,其特征在于,根據如下公式計算各候選詞的評估得分:
其中,word表示候選詞,mx表示語言模型,表示候選詞的語言環境概率,scoreword表示候選詞對應的評估分值,K表示錯詞相對于各候選詞的出錯信息;若候選詞和錯詞首字母相同,K取值為K1,否則,K取值K2,K1、K2均為預設的數值,S表示候選詞與所述錯詞的相似度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州視源電子科技股份有限公司,未經廣州視源電子科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810320358.0/1.html,轉載請聲明來源鉆瓜專利網。





