[發明專利]對于包含非編碼字符的查詢使用統一資源定位符來增強搜索結果相關性排序有效
| 申請號: | 201110252294.3 | 申請日: | 2011-08-30 |
| 公開(公告)號: | CN102385609A | 公開(公告)日: | 2012-03-21 |
| 發明(設計)人: | 宋睿華;Q.姚;陳俊燕 | 申請(專利權)人: | 微軟公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 中國專利代理(香港)有限公司 72001 | 代理人: | 劉紅;劉鵬 |
| 地址: | 美國華*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 對于 包含 編碼 字符 查詢 使用 統一 資源 定位 增強 搜索 結果 相關性 排序 | ||
背景技術
與網頁相對應的統一資源定位符(URL)已顯示為包含用于測量網頁對于搜索查詢的相關性的有用信息。已執行了大量的解決利用URL來改善搜索結果相關性排序的質量的問題的工作。這種工作傳統上集中于西方語言網頁,其字母集合例如能夠通過編碼諸如ASCII字符之類的字符來表示,這是因為URL由US-ASCII字符集(在這里稱為編碼字符)中的字符的字符串組成。
對于包括不允許在URL中使用的字符(即,“非編碼字符”(NEC),例如,其可以包括中文、日文,韓文和其他的類似語言)的語言而言,由于URL利用編碼字符來表示,所以將查詢與URL匹配往往是困難的。為了更有效地將URL用于NEC語言市場中的相關性排序,所希望的是以相同的格式來表示搜索查詢和相應的URL。能夠采用兩種方式之一來實現一致的格式。第一種方式是在在線服務時間改變查詢,其中NEC查詢基于映射表被變換為英文單詞、拼音表示(即,中文字符的發音)、數字字符或這些的組合,其中映射表根據NEC字與其對應的編碼語言形式之間類似的含義或發音的規則離線建立。另一種更堅固的方案是將URL中的有意義部分轉換成NEC字,并在索引生成期間將轉換的URL內置到網頁索引中。
發明內容
這個概述部分用于以簡化形式介紹下面在詳細描述部分中進一步描述的概念的選擇。這個概述部分不打算標識所請求保護的主題的關鍵特征或基本特征,也不打算被孤立用作輔助手段來確定所請求保護的主題的范圍。
本發明的實施例用于執行離線程序,其中這些離線程序通過包括URL與相應NEC字的配對來有助于增強網頁索引,以便于NEC語言搜索的搜索結果相關性排序。在實施例中,網頁的URL被接收。URL子串從URL中進行提取,并與消除歧義信息進行比較,以推斷出該URL的恰當的相應NEC表示。在實施例中,例如,諸如標題、錨(anchor)、層次結構中的字符串等之類的元素從網頁中進行提取。每一個元素被斷字(word-broken)為NEC字的序列。參考NEC-編碼語言映射表來標識元素中的每個NEC字的所有可能的編碼語言表示。在實施例中,代表斷字元素的格被生成,其中每一個節點對應于NEC字的可能的編碼語言表示。
使用這些格,能夠采用遍歷這些格的算法,其定義能夠與所提取的URL子串進行比較的格路徑,以標識匹配。連同與相應匹配相關聯的置信度分數(confidence?score)一起,與URL子串相匹配的格路徑被添加到潛在的候選字符串列表。這些潛在的候選字符串能夠與相應URL子串進行配對,并被并入網頁索引中,以便于在線采用的NEC語言搜索結果相關性排序。
附圖說明
下面參考附圖詳細描述本發明的實施例,其中:
圖1是適合于實施本發明的實施例的示例性計算設備的框圖;
圖2是適合于用于實施本發明的實施例的示例性網絡環境的框圖;
圖3描述用于根據本發明的實施例利用NEC語言/編碼語言配對來增強網頁索引的處理組件的說明性的實施方式;
圖4描述根據本發明的實施例的說明性的映射表;
圖5描述根據本發明的實施例的顯示其各子串的說明性的URL;
圖6描述根據本發明的實施例的說明性的中文語言網頁;
圖7描述根據本發明的實施例的代表網頁元素的說明性的格集合;
圖8描述根據本發明的實施例的說明性的URL候選字符串匹配處理;
圖9描述根據本發明的實施例的說明性的修剪格;
圖10是說明根據本發明的實施例、利用URL/NEC字對來增強網頁索引以便于響應于包括NEC字的搜索查詢而提供的搜索結果的相關性排序的示例性方法的流程圖;和
圖11是說明根據本發明的實施例、利用URL/NEC字對來增強網頁索引以便于響應于包括NEC字的搜索查詢而提供的搜索結果的相關性排序的示例性方法的另一流程圖。
具體實施方式
在這里披露的本發明的實施例的主題利用特異性來描述,以滿足法定要求。但是,該描述本身并不打算來限制這個專利的范圍。相反,發明人已考慮:配合其他的當前或未來的技術,所請求保護的主題也可能以其他的方式來實現,以包括不同的步驟或與這個文獻中所描述的相類似的步驟的組合。此外,雖然在這里可能使用術語“步驟”和/或“方框”來暗示所采用的方法的不同元素,但是除非且除了明確地描述各步驟的順序之外,這些術語不應被解釋為暗指在這里所公開的各種步驟之中或之間任何特定的順序。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于微軟公司,未經微軟公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110252294.3/2.html,轉載請聲明來源鉆瓜專利網。





