[發明專利]使用編輯距離和文檔信息進行搜索結果排名有效
| 申請號: | 200980112928.6 | 申請日: | 2009-03-10 |
| 公開(公告)號: | CN101990670A | 公開(公告)日: | 2011-03-23 |
| 發明(設計)人: | V·坦科維奇;H·李;D·梅耶澤;J·徐 | 申請(專利權)人: | 微軟公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27;G06F17/21 |
| 代理公司: | 上海專利商標事務所有限公司 31100 | 代理人: | 顧嘉運;錢靜芳 |
| 地址: | 美國華*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 使用 編輯 距離 文檔 信息 進行 搜索 結果 排名 | ||
背景
在典型的搜索引擎服務中,用戶可以通過從URL(統一資源定位符)的索引集合中選出與查詢相匹配的最相關文檔來輸入查詢。為了快速對查詢進行服務,搜索引擎利用將關鍵字映射到文檔的一種或多種方法(例如,倒排索引數據結構)。例如,引擎所執行的第一步驟可以是標識包含用戶查詢所指定的關鍵字的候選文檔的集合。這些關鍵字可以位于文檔正文或元數據或實際上存儲在其他文檔或數據存儲中的關于該文檔的附加元數據(如錨文本)中。
在一大型索引集合中,取決于查詢項的共同性,候選文檔集合的基數可以很大(例如,可能有數百萬)。并非返回整個候選文檔集合,搜索引擎根據相關性來執行對候選文檔進行排名的第二步驟。通常,搜索引擎利用排名功能來預測文檔與特定查詢的相關性程度。排名功能從文檔取得多個特征作為輸入,并且計算允許搜索引擎按照所預測的相關性對文檔進行排序的數量。
排名功能相對于該功能有多準確地預測文檔的相關性的質量由用戶對搜索結果的滿意度或用戶發現所提問題的答案的平均次數來最終確定。對系統的總體用戶滿意度可以由單個數字(或度量)來近似,因為該數字可以通過改變排名功能來優化。通常,該度量是在通過對查詢日志進行隨機采樣來預先選擇的代表性查詢集合上計算的,并且涉及向引擎對于評估查詢中的每一個所返回的每一結果分配相關性標記。然而,用于文檔排名和相關性的這些過程仍然不足以提供所需結果。
概述
以下提出了簡化概述以便提供對在此處描述的某些新穎實施例的基本理解。本概述不是詳盡的概覽,它不旨在標識關鍵/重要的元素,也不旨在描繪其范圍。其唯一的目的是以簡化的形式來介紹一些概念,作為稍后提出的更詳細描述的序言。
該體系結構提供用于基于查詢串從作為搜索結果接收到的文檔中提取文檔信息并計算數據串與該查詢串之間的編輯距離的機制。數據串可以是從諸如TAUC(標題、錨文本、URL(統一資源定位符)、以及點擊)等文檔信息獲得的文檔的簡短且準確的描述。編輯距離被用于確定文檔的相關性以作為結果排名的一部分。該機制使用一組鄰近度相關特征來檢測整個查詢或查詢的一部分的接近匹配以改進搜索結果排名的相關性。
處理編輯距離以評估查詢串與包括該文檔信息的給定數據流有多接近。該體系結構包括對URL中的混合項進行的索引時間劃分,以用于允許更高效地發現查詢項。另外,錨文本的索引時間過濾被用來尋找文檔結果中的一個或多個的前N個錨。使用TAUC信息可被輸入到神經網絡(例如,2層)以改進用于對搜索結果進行排名的相關性度量。
為實現上述及相關目的,本文結合下面的描述和附圖描述某些說明性方面。然而,這些方面僅指示了可采用此處公開的原理的各種方法中的少數幾種,且旨在包括所有這些方面及等效方面。結合附圖閱讀下面的詳細描述,則其他優點和新穎特征將變得清楚。
附圖簡述
圖1示出計算機實現的相關性系統。
圖2示出用于計算編輯距離的示例性匹配算法的流程圖。
圖3示出使用經修改的編輯距離和匹配算法來基于查詢串和數據串處理并生成編輯距離值。
圖4示出使用經修改的編輯距離和匹配算法來基于查詢串和數據串處理并生成編輯距離值的另一示例。
圖5示出使用神經網絡來幫助生成文檔的相關性分數的計算機實現的相關性系統。
圖6示出可以在用于確定查詢串與數據串之間的編輯距離的文檔信息中使用的數據的類型。
圖7示出索引時間處理數據流。
圖8示出例示來自圖7的索引過程的、用于結果排名的對神經網絡的輸入的框圖。
圖9示出用于計算生成搜索結果的神經網絡、編輯距離輸入以及原始特征輸入的示例性系統實現。
圖10示出確定文檔結果集的文檔相關性的方法。
圖11示出計算文檔的相關性的方法。
圖12示出根據所公開的體系結構的可用于使用TAUC特征執行編輯距離處理以進行搜索結果排名的計算系統的框圖。
詳細描述
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于微軟公司,未經微軟公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200980112928.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于業務套件客戶化定制的用戶反饋方法和系統
- 下一篇:光盤機的外殼組裝結構





