[發明專利]相似應用的識別方法、裝置和應用搜索推薦方法、服務器有效
| 申請號: | 201710208184.4 | 申請日: | 2017-03-31 |
| 公開(公告)號: | CN106970991B | 公開(公告)日: | 2021-02-05 |
| 發明(設計)人: | 龐偉 | 申請(專利權)人: | 北京奇虎科技有限公司 |
| 主分類號: | G06F16/953 | 分類號: | G06F16/953;G06F16/35;G06F40/30 |
| 代理公司: | 北京恒博知識產權代理有限公司 11528 | 代理人: | 范勝祥 |
| 地址: | 100088 北京市西城區新*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 相似 應用 識別 方法 裝置 搜索 推薦 服務器 | ||
本發明公開了相似應用的識別方法、裝置和應用搜索推薦方法、服務器,其中相似應用的識別方法包括:從應用搜索引擎的查詢會話日志中獲取各查詢會話中的搜索詞和下載的應用;根據各查詢會話中的搜索詞和下載的應用,挖掘出各應用的語義表示信息;根據各應用的語義表示信息識別出該應用的一個或多個相似應用,將相似應用加入該應用的相似應用集合。該技術方案采用大數據樣本機器學習的方式,從用戶的使用情況中挖掘出應用的語義表示信息,相較于人工標注的方式,減少作弊帶來的負面影響,顯著提高了相似應用識別的準確度,同時減少了人工成本并大大提升了效率。
技術領域
本發明涉及數據挖掘領域,具體涉及相似應用的識別方法、裝置和應用搜索推薦方法、服務器。
背景技術
目前許多應用商店提供了將應用進行分類的功能,用戶可以瀏覽各個類別下的應用,從中選擇喜歡的應用進行下載。例如,蘋果商店App Store提供了游戲、教育、兒童、購物等多個分類。
然而,實現這一功能的前提是能夠將應用劃分至相應的分類下,也就是能夠識別出相似應用,現有技術中,實現識別相似應用的方法是使用應用功能標簽,將功能標簽相同的應用認為是相似應用。這種方法主要依賴人工標注和開發者提供的應用功能標簽,人工標注的代價很大,覆蓋率也低,只能標注一部分熱門的應用;開發者提供的應用介紹,作弊信息較多以欺騙搜索引擎獲取高的搜索排名,可靠性較差。因此傳統挖掘相似應用的方法有很大局限性,準確率僅在70%左右。
發明內容
鑒于上述問題,提出了本發明以便提供一種克服上述問題或者至少部分地解決上述問題的相似應用的識別方法、裝置和應用搜索推薦方法、服務器。
依據本發明的一個方面,提供了一種相似應用的識別方法,包括:
從應用搜索引擎的查詢會話日志中獲取各查詢會話中的搜索詞和下載的應用;
根據各查詢會話中的搜索詞和下載的應用,挖掘出各應用的語義表示信息;
根據各應用的語義表示信息識別出該應用的一個或多個相似應用,將相似應用加入該應用的相似應用集合。
可選地,所述從應用搜索引擎的查詢會話日志中獲取各查詢會話中的搜索詞和下載的應用包括:
從應用搜索引擎的查詢會話日志中,獲取符合預設時間長度的查詢會話中的搜索詞和下載的應用。
可選地,所述根據各查詢會話中的搜索詞和下載的應用,挖掘出各應用的語義表示信息包括:
對于各查詢會話,將該查詢會話中的搜索詞按照順序排成一個序列;如果該序列中的一個搜索詞對應于應用下載操作,將所下載的應用的名稱插入到該序列中的相應搜索詞的后面相鄰位置,從而形成該查詢會話對應的訓練語料;
將所有訓練語料匯總為訓練語料集合;
利用深度學習工具包word2vec對所述訓練語料集合進行訓練,將每條訓練語料看做一個單詞,為各應用生成N維向量形式的語義表示信息,其中,N為自然數。
可選地,所述利用深度學習工具包word2vec對所述訓練語料集合進行訓練使用下述參數:
-cbow 1-size 300-window 8-negative 25-hs 0-sample 1e-4-threads 24-binary 0-iter 15。
可選地,所述根據各應用的語義表示信息識別出該應用的一個或多個相似應用包括:
對各應用,計算該應用的N維向量與其他應用的N維向量的余弦相似度;
所述將相似應用加入該應用的相似應用集合包括:選取與該應用的余弦相似度最高的C個應用作為該應用的相似應用,其中,C為自然數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇虎科技有限公司,未經北京奇虎科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710208184.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于地理信息的應急救援指揮方法及系統
- 下一篇:一種頁面緩存方法及裝置





