[發明專利]候選詞評估方法、裝置、計算機設備和存儲介質有效

申請號：	201810320358.0	申請日：	2018-04-11
公開（公告）號：	CN108628826B	公開（公告）日：	2022-09-06
發明（設計）人：	李賢	申請（專利權）人：	廣州視源電子科技股份有限公司
主分類號：	G06F40/232	分類號：	G06F40/232;G06F40/284;G06F40/216
代理公司：	華進聯合專利商標代理有限公司 44224	代理人：	馮右明
地址：	510530 廣***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	候選評估方法裝置計算機設備存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種候選詞評估方法，其特征在于，包括：

檢測到錯詞，獲取錯詞對應的多個候選詞；所述錯詞包括基于用戶的書寫操作得到的詞；

確定各候選詞與錯詞的相似度，所述相似度根據各候選詞與錯詞的最長公共子序列率和/或最長公共子串率得到；所述最長公共子序列率和/或所述最長公共子串率用于表征各候選詞與錯詞之間相同字符的多寡，以及相同字符所占的比例；

確定各候選詞在所述錯詞位置的語言環境概率；

獲取所述錯詞相對于各候選詞的出錯信息；所述出錯信息用于表征所述錯詞與各候選詞的區別信息；

根據所述相似度、所述語言環境概率以及出錯信息，確定各候選詞對應的評估得分；

其中，所述確定各候選詞在所述錯詞位置的語言環境概率，包括：

根據預設的語言模型計算各候選詞在所述錯詞位置的概率，將該概率的log值作為所述候選詞的語言環境概率；

所述根據所述相似度、所述語言環境概率以及出錯信息，確定各候選詞對應的評估得分，包括：

根據所述相似度、所述語言環境概率的倒數以及出錯信息，確定各候選詞對應的評估得分；

所述出錯信息包括以下任一項或多項：

所述錯詞與候選詞的字符數量是否相同的信息、所述錯詞與候選詞的偏旁是否相同的信息、所述錯詞中是否含有非法符號的信息。

2.根據權利要求1所述的候選詞評估方法，其特征在于，

所述語言模型包括：N-Gram模型、BiLSTM模型或者LSTM模型。

3.根據權利要求1至2任一所述的候選詞評估方法，其特征在于，所述錯詞相對于各候選詞的出錯信息中包括：所述錯詞與候選詞是否首字母相同的信息；

所述根據所述語言環境概率以及出錯信息，確定各候選詞對應的評估得分，包括：

若錯詞與候選詞首字母相同，根據所述相似度、所述語言環境概率以及第一系數計算所述候選詞的評估得分；

若錯詞與候選詞首字母不同，根據所述相似度、所述語言環境概率以及第二系數計算所述候選詞的評估得分。

4.根據權利要求3所述的候選詞評估方法，其特征在于，還包括步驟：

檢測到待檢測詞不在預設詞庫中，確定所述待檢測詞為錯詞。

5.根據權利要求4所述的候選詞評估方法，其特征在于，在檢測出錯詞之后，還包括：

計算所述錯詞與所述詞庫中已知詞的編輯距離，選取編輯距離在設定范圍內的已知詞，得到所述錯詞對應的多個候選詞。

6.根據權利要求1、2、4、5中任一所述的候選詞評估方法，其特征在于，還包括：

根據所述評估得分從所述多個候選詞中確定出所述錯詞對應的糾錯詞，用所述糾錯詞對所述錯詞進行糾錯；

和/或，

根據所述評估得分對所述多個候選詞進行排序，顯示排序后的所述多個候選詞。

7.根據權利要求6所述的候選詞評估方法，其特征在于，所述根據所述評估得分從所述多個候選詞中確定出所述錯詞對應的糾錯詞，包括：

從多個候選詞中確定出所述評估得分最高的候選詞，作為所述錯詞對應的糾錯詞。

8.根據權利要求1所述的候選詞評估方法，其特征在于，根據如下公式計算各候選詞的評估得分：

其中，word表示候選詞，mx表示語言模型，表示候選詞的語言環境概率，score_word表示候選詞對應的評估分值，K表示錯詞相對于各候選詞的出錯信息；若候選詞和錯詞首字母相同，K取值為K1，否則，K取值K2，K1、K2均為預設的數值，S表示候選詞與所述錯詞的相似度。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于廣州視源電子科技股份有限公司，未經廣州視源電子科技股份有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201810320358.0/1.html，轉載請聲明來源鉆瓜專利網。

上一篇：文本信息相似度匹配方法、裝置、計算機設備及存儲介質
下一篇：候選詞評估方法、裝置、計算機設備和存儲介質

同類專利

專利分類

G 物理

G06 計算；推算；計數
G06F 電數字數據處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】

[發明專利]候選詞評估方法、裝置、計算機設備和存儲介質有效

專利文獻下載

[發明專利]候選詞評估方法、裝置、計算機設備和存儲介質有效