[發明專利]一種查詢詞拓展方法、裝置以及電子設備有效
| 申請號: | 201810489682.5 | 申請日: | 2018-05-21 |
| 公開(公告)號: | CN108804550B | 公開(公告)日: | 2021-04-16 |
| 發明(設計)人: | 王天暢;葉澄燦;陳英傑 | 申請(專利權)人: | 北京奇藝世紀科技有限公司 |
| 主分類號: | G06F16/735 | 分類號: | G06F16/735;G06F40/289 |
| 代理公司: | 北京柏杉松知識產權代理事務所(普通合伙) 11413 | 代理人: | 項京;馬敬 |
| 地址: | 100080 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 查詢 拓展 方法 裝置 以及 電子設備 | ||
1.一種查詢詞拓展方法,其特征在于,包括:
獲得包含多個單詞的當前查詢語句;
計算當前查詢語句與預先構建的限定候選集中的各限定候選語句之間的第一相似度;所述限定候選語句包括:用戶歷史搜索的語句;
獲得第一相似度滿足第一預設條件的多個限定候選語句,形成限定語句集;
從所述限定語句集中獲得待匹配的各單詞;
計算當前查詢語句與所獲得各個待匹配的單詞之間的第二相似度;
獲得第二相似度滿足第二預設條件的各單詞,確定為所述當前查詢語句的各拓展詞。
2.根據權利要求1所述的方法,其特征在于,構建所述限定候選集的過程,包括:
從用戶歷史搜索日志中獲取預設搜索量的搜索內容;所述搜索內容包括:用戶歷史搜索的單詞和/或語句;
過濾所述搜索內容中單個單詞的搜索內容;
獲得各個語句的向量;
將各個語句對應的向量存儲至所述限定候選集中。
3.根據權利要求2所述的方法,其特征在于,所述獲得各個語句的向量,包括:
針對所述各個語句,將該語句劃分為單個單詞;
針對所述各個語句,在word2vec數據字典中,查找該語句包含的單個單詞對應的向量;
針對所述各個語句,將該語句包含的單個單詞對應的向量按照第一預設公式計算,得到該語句對應的向量。
4.根據權利要求2所述的方法,其特征在于,所述計算當前查詢語句與預先構建的限定候選集中的各限定候選語句之間的第一相似度,包括:
將所述當前查詢語句包含的單個單詞對應的向量按照第一預設公式計算,得到所述當前查詢語句對應的向量;
計算所述當前查詢語句對應的向量與所述限定候選集中的各限定候選語句對應的向量的第一相似度。
5.根據權利要求3、4任一項所述的方法,其特征在于,所述第一預設公式為:
qv=∑weighti*wvi
其中,qv表示所述限定候選集中每個語句的向量或所述當前查詢語句的向量,weighti表示第i個單詞的權重,wvi表示第i個單詞的向量。
6.根據權利要求4所述的方法,其特征在于,所述獲得第一相似度滿足第一預設條件的多個限定候選語句,形成限定語句集,包括:
按照第一相似度從高到低的順序,獲得第一預設個數的多個限定候選語句,形成限定語句集。
7.根據權利要求4所述的方法,其特征在于,所述從所述各限定語句集中獲得待匹配的各單詞,包括:
將所述限定語句集中的各個限定候選語句劃分成單個單詞,將各單詞作為當前查詢語句待匹配的各單詞;
所述計算當前查詢語句與所獲得各個待匹配的單詞之間的第二相似度,包括:
分別統計待匹配的各單詞在所述限定語句集中出現的頻數;
針對所述待匹配的各單詞,通過第二預設公式計算,得到所述當前查詢語句與該待匹配的單詞的第二相似度,所述第二預設公式為:
其中,freqi表示第i個單詞出現的頻次,表示所述第i個單詞所對應的限定候選語句的第一相似度;
所述獲得第二相似度滿足第二預設條件的各單詞,確定為所述當前查詢語句的各拓展詞,包括:
按照所述第二相似度高低順序,獲得第二預設個數的各待匹配的單詞,確定為所述當前查詢語句的各拓展詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇藝世紀科技有限公司,未經北京奇藝世紀科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810489682.5/1.html,轉載請聲明來源鉆瓜專利網。





