[發明專利]頁面的搜索特性的分析方法和分析裝置有效
| 申請號: | 201710308061.8 | 申請日: | 2017-05-04 |
| 公開(公告)號: | CN107133321B | 公開(公告)日: | 2020-06-12 |
| 發明(設計)人: | 尹文科;徐健;劉高強;閆彬 | 申請(專利權)人: | 廣東神馬搜索科技有限公司 |
| 主分類號: | G06F16/953 | 分類號: | G06F16/953;G06F40/289;G06F40/30 |
| 代理公司: | 北京展翼知識產權代理事務所(特殊普通合伙) 11452 | 代理人: | 屠長存 |
| 地址: | 510627 廣東省廣州市天河區黃埔大*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 頁面 搜索 特性 分析 方法 裝置 | ||
本發明公開了一種頁面的搜索特性的分析方法和分析裝置。其中,分析方法包括:計算查詢集中的歷史查詢請求和頁面集中的頁面之間的第一相似度;將第一相似度超過第一預定閾值的歷史查詢請求和頁面視為相互匹配;根據頁面的匹配信息,對頁面進行分析,以確定頁面的搜索特性。由此,分析方法中的步驟均可以離線實現,并且頁面的搜索特性是基于頁面與歷史查詢請求的匹配信息確定的,與現有的頁面分析方案相比,所確定的頁面的搜索特性不僅更加符合用戶的搜索意圖,還可以挖掘出滿足用戶冷門需求的頁面以及新頁面。
技術領域
本發明涉及搜索技術領域,特別是涉及一種頁面的搜索特性的分析方法和分析裝置。
背景技術
現有的商業搜索引擎基本均采用了圖1所示的總體架構,即通過爬蟲定期抓取互聯網上的網頁,通過離線分析完成網頁的特征計算和索引構建,最后由在線檢索系統為用戶提供檢索服務。然而經估算,目前僅中文互聯網就有大約100萬億的網頁,且每天新增約100億新的網頁,如此龐大的規模對抓取、存儲、索引、檢索等構成了巨大的挑戰。
目前主要的解決方法是從網頁全集中挑選出認為有“價值”的子集優先進行處理,當前比較出名的網頁價值分析方法主要包括PageRank(網頁排名)和HITS(Hyperlink-Induced Topic Search,鏈接分析算法)。
PageRank的計算基于以下兩個基本假設:
1.數量:在Web圖模型中,如果一個頁面節點接收到的其他網頁指向的入鏈數量越多,那么這個頁面越重要。
2.質量:指向頁面A的入鏈質量不同,質量高的頁面會通過鏈接向其他頁面傳遞更多的權重。所以越是質量高的頁面指向頁面A,則頁面A越重要。
PageRank算法的優點在于它是一個與查詢無關的靜態算法,所有網頁的PageRank值可以通過離線計算獲得。然而該算法也存在著一些缺點:一是,熱門頁面的等級往往比長冷頁面的等級高,不利于挖掘滿足用戶長冷需求的頁面;二是,舊的頁面等級會比新頁面高,因為即使是非常好的新頁面也不會有很多上游鏈接,因此不利于新頁面的發現。
HITS算法是利用Web的鏈接結構進行挖掘的典型算法,其核心思想是建立在頁面鏈接關系的基礎上,其基本思想是利用頁面之間的引用鏈來挖掘隱含在其中的有用信息,HITS算法有兩個重要概念:
1.Hub頁面:指包含了很多指向高質量“Authority”頁面的鏈接網頁;
2.Authority頁面:指某個領域或者某個話題相關的高質量網頁。
HITS基于如下的基本假設:
假設1:一個好的“Authority”頁面會被很多好的“Hub”頁面指向;
假設2:一個好的“Hub”頁面會指向很多好的“Authority”頁面。
HITS算法的優點在于它能更好地描述互聯網的組織特點,然而HITS算法也存在著一些缺點,例如效率低,HITS算法是與查詢有關的算法,所以必須接收到用戶查詢后實時的進行計算,此外長冷鏈接挖掘和新鏈發現能力不足的問題也同樣存在。
由此,需要一種能夠更為準確地挖掘出有價值的頁面的分析方案。
發明內容
本發明的主要目的在于提供一種頁面的搜索特性的分析方法和分析裝置,其能夠更為準確地挖掘出符合用戶的搜索需求的頁面。
根據本發明的一個方面,提供了一種頁面的搜索特性的分析方法,包括:計算查詢集中的歷史查詢請求和頁面集中的頁面之間的第一相似度;將第一相似度超過第一預定閾值的歷史查詢請求和頁面視為相互匹配;根據頁面的匹配信息,對頁面進行分析,以確定頁面的搜索特性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東神馬搜索科技有限公司,未經廣東神馬搜索科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710308061.8/2.html,轉載請聲明來源鉆瓜專利網。





