[發明專利]搜索引擎的有效前向排序有效
| 申請號: | 201110373394.1 | 申請日: | 2011-11-22 |
| 公開(公告)號: | CN102402604A | 公開(公告)日: | 2012-04-04 |
| 發明(設計)人: | K.M.里斯維克;M.霍普克羅夫特;J.G.貝內特;K.卡亞納拉曼;T.基林比;C.P.沃特斯;V.帕里克;J.O.彼得森 | 申請(專利權)人: | 微軟公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 中國專利代理(香港)有限公司 72001 | 代理人: | 謝建云;劉鵬 |
| 地址: | 美國華*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 搜索引擎 有效 排序 | ||
背景技術
在因特網上可得到的信息和內容的數量繼續非常快地增長。考慮到信息的數量之大,已開發了搜索引擎以便于電子文檔的搜索。具體地,用戶可通過鍵入包括用戶可能感興趣的一個或多個術語的搜索查詢而搜索信息和文檔。在從用戶接收搜索查詢后,搜索引擎基于該搜索查詢標識相關的文檔和/或網絡頁面。因為其效用,網絡搜索,即為用戶發出的搜索查詢發現相關的網絡頁面和文檔的處理,可以說已成為今天因特網上最流行的服務。
另外,搜索引擎典型地使用單步處理,其基于所接收的搜索查詢,利用搜索索引標識相關的文檔以返回至用戶。然而,搜索引擎排序功能變成為非常復雜的功能,如果該功能用于被索引的每一文檔,則可能既耗時又昂貴。另外,這些復雜的公式所需的數據存儲也可能出現問題,特別是當數據存儲在典型地通過字或短語索引的反向索引(reverse?index)中時更是如此。當存儲在反向索引中時,復雜公式所需的相關數據的提取效率較低。
發明內容
提出本發明內容以簡化的形式介紹以下在具體實施方式中進一步描述的概念選集。本發明內容既不意圖標識所要求主題的關鍵特征或必要特征,也不意圖用于輔助確定所要求主題的范圍。
本發明的實施例涉及用于對作為搜索查詢的結果的文檔進行排序的前向索引的生成和使用。在一個實施例中,在排序處理中使用前向索引是最終處理階段(stage),從而排序處理的先前處理階段利用反向索引初步地標識可能與搜索查詢相關的文檔。因為在一些情況下,利用前向索引的最后處理階段可能更耗時且成本更高,其可被用于先前已標識為與搜索查詢相關的有限數量的文檔。前向索引一般地包括多個條目,每個條目與具體的文檔相關聯。可能針對每個條目而包含在前向索引中的示例信息為文檔的令牌流,關于各種語境在令牌流中的位置的指示(例如,標題、URL、主體),與文檔相關聯的靜態特征,和指示相關數據在前向索引中的位置的位置索引。如所述,前向索引可獨自使用或用作基于搜索結果的排序文檔的排序處理中的一處理階段(諸如,最終處理階段)。
附圖說明
本發明參照附圖在下文進行詳細描述,其中:
圖1是適用于實現本發明的實施例的示例計算環境的框圖;
圖2是可采用本發明的實施例的示例系統的框圖;
圖3是根據本發明的實施例,前向索引中的條目的示例數據結構;
圖4是示出了根據本發明的實施例用于生成前向索引中的條目的方法的流程圖;以及
圖5是示出了根據本發明的實施例使用前向索引來基于搜索查詢提取用于排序文檔的信息的方法的流程圖。
具體實施方式
這里特別地描述本發明的主題以符合法定要求。然而,該描述本身并不意圖限制本專利的范圍。相反地,發明者已預期所要求的主題也可能以的其他方式實現,來包括與其他當前或進一步技術相結合的不同的步驟或與本文件中描述的那些步驟相似的步驟組合。此外,雖然術語“步驟”和/或“框”此處可被用于意味著所采用的方法的不同元件,但是除非且除明確地描述的個別步驟的次序之外,術語不應被解釋為暗示在此處公開的各種步驟之中或此處公開的各種步驟之間的任何特定次序。
如上所述,本發明的實施例提供了前向索引,在一個實施例中,該前向索引用作多處理階段文檔排序處理中的一處理階段。例如,第一處理階段可包括使用反向索引以標識與所接收的查詢相關的多個文檔。然后,這些文檔在利用此處描述的前向索引的排序排序的第二處理階段中使用。前向索引是包括多個條目(每個條目與文檔相關聯)的索引。這樣,前向索引通過文檔索引,并包括數據的各種類型,諸如,對應于文檔的令牌流的壓縮版本,文檔的各種語境部分(例如,主體、標題、URL)的壓縮分離流,與文檔的靜態特征相關聯的文檔特定數據、與被頻繁地用于從前向索引的特征提取的相關數據相關聯的位置信息等。
因此,在一方面,本發明的實施例指向用于生成前向索引中的條目的方法。該方法包括接收文檔和對應的文檔標識,并接收與文檔相關聯的一個或多個靜態特征。該一個或多個靜態特征與搜索查詢無關。進一步地,該方法包括將文檔解析為令牌以形成文檔的令牌流,根據一個或多個相關的數據在文檔中的位置來確定位置信息,以及根據文檔標識、文檔的令牌流、靜態特征和位置信息生成條目。該方法還包括在前向索引中存儲條目。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于微軟公司,未經微軟公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110373394.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用戶篩選方法及用于用戶篩選的基站
- 下一篇:一種平板式太陽能集熱器的邊框





