[發明專利]相似應用的識別方法、裝置和應用搜索推薦方法、服務器有效
| 申請號: | 201710208184.4 | 申請日: | 2017-03-31 |
| 公開(公告)號: | CN106970991B | 公開(公告)日: | 2021-02-05 |
| 發明(設計)人: | 龐偉 | 申請(專利權)人: | 北京奇虎科技有限公司 |
| 主分類號: | G06F16/953 | 分類號: | G06F16/953;G06F16/35;G06F40/30 |
| 代理公司: | 北京恒博知識產權代理有限公司 11528 | 代理人: | 范勝祥 |
| 地址: | 100088 北京市西城區新*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 相似 應用 識別 方法 裝置 搜索 推薦 服務器 | ||
1.一種相似應用的識別方法,其中,該方法包括:
從應用搜索引擎的查詢會話日志中獲取各查詢會話中的搜索詞和下載的應用;
根據各查詢會話中的搜索詞和下載的應用,挖掘出各應用的語義表示信息;
根據各應用的語義表示信息識別出該應用的一個或多個相似應用,將相似應用加入該應用的相似應用集合;
所述從應用搜索引擎的查詢會話日志中獲取各查詢會話中的搜索詞和下載的應用包括:
從應用搜索引擎的查詢會話日志中,獲取符合預設時間長度的查詢會話中的搜索詞和下載的應用;
其中,所述語義表示信息通過對訓練語料集合訓練得到;
所述根據各查詢會話中的搜索詞和下載的應用,挖掘出各應用的語義表示信息包括:
對于各查詢會話,將該查詢會話中的搜索詞按照順序排成一個序列;如果該序列中的一個搜索詞對應于應用下載操作,將所下載的應用的名稱插入到該序列中的相應搜索詞的后面相鄰位置,從而形成該查詢會話對應的訓練語料;
將所有訓練語料匯總為訓練語料集合;
利用深度學習工具包word2vec對所述訓練語料集合進行訓練,將每條訓練語料看做一個單詞,為各應用生成N維向量形式的語義表示信息,其中,N為自然數。
2.如權利要求1所述的方法,其中,所述利用深度學習工具包word2vec對所述訓練語料集合進行訓練使用下述參數:
-cbow 1 -size 300 -window 8 -negative 25 -hs 0 -sample 1e-4 -threads 24 -binary 0 -iter 15。
3.如權利要求1所述的方法,其中,所述根據各應用的語義表示信息識別出該應用的一個或多個相似應用包括:
對各應用,計算該應用的N維向量與其他應用的N維向量的余弦相似度;
所述將相似應用加入該應用的相似應用集合包括:選取與該應用的余弦相似度最高的C個應用作為該應用的相似應用,其中,C為自然數。
4.如權利要求3所述的方法,其中,所述對各應用,計算其與其他應用的余弦相似度包括:
將所有應用的N維向量形式的語義表示信息存儲到k-d樹中;
在k-d樹中計算與目標應用相距在預設范圍內的一個或多個應用與該目標應用的余弦相似度。
5.如權利要求3所述的方法,其中,所述選取與該應用的余弦相似度最高的C個應用作為該應用的相似應用包括:
從應用搜索引擎的查詢會話日志中統計該應用的下載次數S;
根據預設的折線函數和下述公式確定C的取值:
;
其中,。
6.如權利要求1所述的方法,其中,該方法還包括:
對各應用,根據該應用的標簽屬性,從該應用的相似應用集合中篩除標簽差異在預設范圍外的應用。
7.如權利要求6所述的方法,其中,所述從該應用的相似應用集合中篩除標簽差異在預設范圍外的應用包括:
計算該應用與目標相似應用的標簽語義相似度;
將標簽語義相似度低于預設閾值的目標相似應用從該應用的相似應用集合中刪除。
8.一種應用搜索推薦方法,其中,該方法包括:
接收用戶輸入的搜索詞,根據所述搜索詞確定目標應用;
從目標應用的相似應用集合中獲取目標應用的一個或多個相似應用,將所述目標應用和相似應用推薦給用戶,其中,所述目標應用的相似應用集合是通過如權利要求1-7中任一項所述的方法得到的。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇虎科技有限公司,未經北京奇虎科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710208184.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于地理信息的應急救援指揮方法及系統
- 下一篇:一種頁面緩存方法及裝置





