[發明專利]搜索詞糾正方法、裝置、電子設備及計算機存儲介質在審
| 申請號: | 202110798742.3 | 申請日: | 2021-07-15 |
| 公開(公告)號: | CN113553398A | 公開(公告)日: | 2021-10-26 |
| 發明(設計)人: | 姚瀾;羅川江;王煒;解忠乾;孫翠榮 | 申請(專利權)人: | 杭州網易云音樂科技有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F40/289;G06K9/62;G06N3/04 |
| 代理公司: | 北京同達信恒知識產權代理有限公司 11291 | 代理人: | 劉彩紅 |
| 地址: | 310052 浙江省杭州市蕭山區錢江世*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 搜索詞 糾正 方法 裝置 電子設備 計算機 存儲 介質 | ||
1.一種搜索詞糾正方法,其特征在于,包括:
獲取輸入的搜索詞,對所述搜索詞進行特征提取,并確定候選集合中不同候選詞的特征;
根據所述搜索詞的特征與所述不同候選詞的特征的相似度,從所述候選集合中召回相似度符合要求的第一候選詞集合;
過濾掉所述第一候選詞集合中符合過濾條件的候選詞,得到第二候選詞集合;
對所述第二候選詞集合中的候選詞進行評分;
根據評分結果,確定評分滿足要求的候選詞為糾錯詞,并利用所述糾錯詞糾正所述搜索詞。
2.如權利要求1所述的方法,其特征在于,所述確定候選集合中不同候選詞的特征,包括:
對所述候選集合中不同候選詞按照至少一種語言元素的類型拆解,并提取拆解得到各類型的語言元素對應的向量;
將所述各類型的語言元素對應的向量利用長短期記憶人工神經網絡LSTM模型進行特征提取;
將提取特征后得到各類型的語言元素對應的向量合并,得到所述候選詞的表征向量;
其中,所述LSTM模型通過輸入樣本中有正確糾錯關系的候選詞,以輸出對應的向量合并得到的表征向量與樣本中搜索詞的表征向量的相似度符合設定要求為目標進行訓練;
所述對所述搜索詞進行特征提取,包括:
將所述搜索詞按照至少一種語言元素的類型拆解,并提取拆解得到各類型的語言元素對應的向量;
將所述各類型的語言元素對應的向量合并得到所述搜索詞的表征向量。
3.如權利要求2所述的方法,其特征在于,所述將所述各類型的語言元素對應的向量合并得到所述搜索詞的表征向量,具體包括:
將同類型的語言元素對應的向量,合并為該類型的語言元素對應的子向量;
將不同類型的語言元素的子向量合并,得到所述搜索詞的表征向量。
4.如權利要求2所述的方法,其特征在于,所述根據所述搜索詞的特征與所述不同候選詞的特征的相似度,從所述候選集合中召回相似度符合要求的第一候選詞集合,包括:
利用向量檢索引擎,確定所述搜索詞的表征向量與所述不同候選詞的表征向量的余弦相似度;
按照對應的所述余弦相似度的排序,從所述候選集合中召回預設數量的候選詞,得到所述第一候選詞集合。
5.如權利要求1所述的方法,其特征在于,所述對所述搜索詞進行特征提取,包括:
將所述搜索詞按照至少一種語言元素的類型進行拆解,得到與所述搜索詞對應的各類型的語言元素;
所述確定候選集合中不同候選詞的特征,包括:
對所述候選集合中不同候選詞按照至少一種語言元素的類型拆解,得到與各所述候選詞對應的各類型的語言元素。
6.如權利要求5所述的方法,其特征在于,所述根據所述搜索詞的特征與所述不同候選詞的特征的相似度,從所述候選集合中召回相似度符合要求的第一候選詞集合,包括:
利用倒排索引算法,確定所述搜索詞對應的各類型的語言元素與各所述候選詞對應的各類型的語言元素的相似度;
按照對應的所述相似度的排序,從所述候選集合中召回預設數量的候選詞,得到所述第一候選詞集合。
7.如權利要求1所述的方法,其特征在于,所述過濾條件包括如下至少一種:
所述搜索詞與候選詞的字符編輯距離大于預設字符編輯距離閾值;
所述搜索詞的搜索操作參數與候選詞的搜索操作參數的差異符合設定要求,所述搜索詞的搜索操作參數為根據用戶對所述搜索詞的歷史操作確定的參數,所述候選詞搜索操作參數為根據用戶對所述候選詞的歷史操作確定的參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州網易云音樂科技有限公司,未經杭州網易云音樂科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110798742.3/1.html,轉載請聲明來源鉆瓜專利網。





