[發(fā)明專利]在搜索引擎結(jié)果頁面上聚集WEB頁面有效
| 申請?zhí)枺?/td> | 201280038545.0 | 申請日: | 2012-07-31 |
| 公開(公告)號: | CN103827852A | 公開(公告)日: | 2014-05-28 |
| 發(fā)明(設(shè)計)人: | S.K.帕塔薩拉蒂;J.艾哈邁德;Y.薩拉夫;W.孫 | 申請(專利權(quán))人: | 微軟公司 |
| 主分類號: | G06F17/00 | 分類號: | G06F17/00;G06F17/30 |
| 代理公司: | 中國專利代理(香港)有限公司 72001 | 代理人: | 李舒;汪揚 |
| 地址: | 美國華*** | 國省代碼: | 美國;US |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 搜索引擎 結(jié)果 頁面 聚集 web | ||
背景技術(shù)
數(shù)據(jù)可以被以電子形式存儲以用于以計算機(jī)化的技術(shù)使用。結(jié)合各種不同的應(yīng)用使用的大量計算機(jī)化的數(shù)據(jù)對于如何定位并且組織相關(guān)信息提出了挑戰(zhàn)。聚集指的是將諸如在計算機(jī)化的數(shù)據(jù)中包括的文檔之類的一組數(shù)據(jù)對象分類成組以便每個組包括相似對象并且屬于其它組的對象不相似的過程。
聚集提供了當(dāng)存在關(guān)于特定話題的大量的信息或新聞時將新鮮文檔分組在一起的手段。群集的概要或抽象連同到群集內(nèi)的文檔的鏈接和其它相干信息一起被顯示在搜索引擎結(jié)果頁面(SERP)中。新鮮文檔是關(guān)于新近話題或感興趣主題的文檔。在短時間段之后,文檔不再被認(rèn)為是新鮮文檔。文檔在它們是新鮮的時被聚集,并且它們被提供有標(biāo)識號。這個信息與文檔一起保持以便幫助辨別這個群集和關(guān)于相似話題的新的群集。
用于聚集對象的技術(shù)包括但不限于層次聚集方法或分割方法。層次算法通過要么將較小群集合并成較大群集要么通過將較大群集分成較小群集來接連地進(jìn)行。相比之下,分割算法通過將數(shù)據(jù)集分解成一組不相交的群集立刻確定所有群集。層次聚集算法能夠被進(jìn)一步描述為分裂方法(即,自頂向下)或凝聚方法(即,自底向上)。分裂算法始于整個集合并且遞歸地將該數(shù)據(jù)集分割成兩個(或更多個)片,從而形成樹。凝聚算法從它自己的群集中的每個對象開始并且迭代地合并群集。
發(fā)明內(nèi)容
本發(fā)明的實施例被以下權(quán)利要求限定。各種實施例的高級綜述被提供來介紹下面在具體實施方式部分中被進(jìn)一步描述的系統(tǒng)、方法以及媒體的概述。本概述既不旨在標(biāo)識所要求保護(hù)的主題的關(guān)鍵特征或必要特征,也不旨在被用來孤立地幫助確定所要求保護(hù)的主題的范圍。
用于遞送針對新近的和非新近的事件的聚集的搜索結(jié)果的系統(tǒng)、方法以及計算機(jī)可讀存儲媒體被描述。相應(yīng)群集的標(biāo)識號貫穿相應(yīng)文檔的生命或者持續(xù)達(dá)任何其它指定的時間周期在經(jīng)聚集的文檔的“新鮮的”壽命外被維持。這些長期群集根據(jù)發(fā)表日期被進(jìn)一步劃分成一個或多個群集。結(jié)果,非新鮮文檔繼續(xù)被聚集,但同樣被根據(jù)不同的時間線按發(fā)表日期劃分成單獨的相似事件。
附圖說明
參考附圖,在下面詳細(xì)地描述本發(fā)明的說明性實施例,附圖通過引用被并入這里,并且其中:
圖1是依據(jù)本發(fā)明的實施例使用的示范性計算機(jī)操作系統(tǒng)的示意表示;
圖2是依據(jù)本發(fā)明的實施例使用的查詢聚集系統(tǒng)的示意表示;
圖3是依據(jù)本發(fā)明的實施例使用的代表性查詢聚集過程的流程圖;
圖4是依據(jù)本發(fā)明的實施例使用的群集和子群集信息的說明;
圖5是依據(jù)本發(fā)明的實施例使用的遞送搜索結(jié)果的計算機(jī)實施的方法的流程圖;
圖6是依據(jù)本發(fā)明的實施例使用的搜索引擎結(jié)果頁面的說明;
圖7是遞送持久性群集的方法的流程圖,指令被存儲在依據(jù)本發(fā)明的實施例使用的一個或多個計算機(jī)可讀存儲媒體上;以及
圖8是在SERP中提供經(jīng)聚集的非唯一結(jié)果的方法的流程圖,指令被存儲在依據(jù)本發(fā)明的實施例使用的一個或多個計算機(jī)可讀存儲媒體上。
具體實施方式
許多新聞故事在初始發(fā)表之后不久(諸如一個或兩個星期以后)對于一般公眾而言便不是有趣的。此外,如果新聞故事仍然是有趣的,則它可能已經(jīng)某種程度上從初始新聞推力(thrust)改變了其焦點。然而,存在其中“舊”新聞故事諸如鑒于相似的新近的新聞故事收回興趣的數(shù)個實例。例如,新近的大地震或海嘯被頻繁地與在新近事件之前數(shù)個星期、月、年發(fā)生的在先的地震或海嘯相比較。因此,維持以前事件的群集達(dá)較長的時間段(諸如貫穿組成群集的單獨的文檔的生命)將是有利的。
當(dāng)群集根據(jù)相似內(nèi)容被形成時,標(biāo)識(ID)號和相關(guān)聯(lián)的屬性被分配給群集中的每一個。這提供了一種機(jī)制來跟蹤并且檢索相應(yīng)群集以用于搜索結(jié)果的后續(xù)遞送。即使在文檔不再被認(rèn)為是“新鮮的”之后,群集的相應(yīng)ID號也被維持。這些相似內(nèi)容的群集根據(jù)發(fā)表日期被進(jìn)一步細(xì)分。這為以不同的時間跨度發(fā)生的相似內(nèi)容事件提供了單獨的細(xì)分的群集。作為例子,針對在中國在2002、2006以及2010年發(fā)生的三次不同的飛機(jī)事故的搜索結(jié)果將在SERP中連同單獨的相關(guān)搜索結(jié)果一起作為三個不同的群集被遞送。
本發(fā)明的實施例提供了用于遞送針對新近的和非新近的事件的聚集的搜索結(jié)果的系統(tǒng)、方法以及計算機(jī)可讀存儲媒體。這個具體描述以下權(quán)利要求滿足可適用的法定要求。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于微軟公司,未經(jīng)微軟公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201280038545.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





