[發明專利]對于包含非編碼字符的查詢使用統一資源定位符來增強搜索結果相關性排序有效
| 申請號: | 201110252294.3 | 申請日: | 2011-08-30 |
| 公開(公告)號: | CN102385609A | 公開(公告)日: | 2012-03-21 |
| 發明(設計)人: | 宋睿華;Q.姚;陳俊燕 | 申請(專利權)人: | 微軟公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 中國專利代理(香港)有限公司 72001 | 代理人: | 劉紅;劉鵬 |
| 地址: | 美國華*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 對于 包含 編碼 字符 查詢 使用 統一 資源 定位 增強 搜索 結果 相關性 排序 | ||
1.一種或多種計算機可讀媒體,其中在所述計算機可讀媒體上已包括有計算機可執行指令,所述計算機可執行指令當由與搜索服務相關聯的計算設備中的處理器執行時使得所述計算設備執行利用統一資源定位符(URL)/非編碼字符(NEC)字對來增強網頁索引的方法,以便于響應于包括NEC字的搜索查詢而提供的搜索結果的相關性排序,所述方法包括:
接收(1010)與網頁相對應的統一資源定位符(URL),其中所述URL包括編碼字符的第一字符串;
將編碼字符的第一字符串變換(1020)成一個或多個NEC字,其中所述變換包括基于來自所述網頁的內容來推斷出變換;以及
將NEC字的集合包括(1030)在網頁索引中。
2.權利要求1的媒體,其中所述編碼字符的第一字符串包括一個或多個英文字符。
3.權利要求1的媒體,其中所述編碼字符的第一字符串包括中文字的一個或多個拼音表示。
4.權利要求1的媒體,其中將編碼字符的第一字符串變換成一個或多個NEC字包括:利用一對或多對URL子串和相應NEC字來表示所述編碼字符的第一字符串,其中所述表示包括:
參考來自所述網頁的多個元素;
將所述URL字符串轉換成NEC字的序列,其中所述轉換部分地基于所述多個元素;
參考映射表,所述映射表包括多個NEC字符與相應編碼字符之間的映射;
借助于所述映射表,標識所述元素的多個可能的編碼字符表示;以及
選擇所述元素的多個可能的編碼字符表示之一。
5.權利要求1的媒體,其中所述NEC字包括中文字、日文字或韓文字。
6.權利要求1的媒體,其中將NEC字的集合包括在網頁索引中包括:在生成所述網頁索引時,將NEC字的集合并入所述網頁索引中。
7.權利要求1的媒體,其中將NEC字的集合包括在網頁索引中包括:將NEC字的集合并入現有網頁索引中。
8.一種或多種計算機可讀媒體,其中在所述計算機可讀媒體上已包括有計算機可執行指令,所述計算機可執行指令當由與搜索服務相關聯的計算設備中的處理器執行時使得所述計算設備執行利用統一資源定位符(URL)/非編碼字符(NEC)字對來增強網頁索引的方法,以便于響應于包括NEC字的搜索查詢而提供的搜索結果的相關性排序,所述方法包括:
創建(1110)包括NEC語言與編碼字符語言之間的映射的映射表;
接收(1120)與網頁相對應的統一資源定位符(URL)字符串,其中所述URL字符串以編碼字符語言來表示;
參考(1140)來自所述網頁的多個元素;
將所述URL字符串轉換(1020)成NEC字的序列,其中所述轉換部分地基于所述多個元素;以及
構建(1030)網頁索引,所述網頁索引包括NEC字的集合。
9.權利要求8的設備,其中所述多個元素包括錨、標題和層次結構中的字符串。
10.權利要求9的設備,其中將所述URL字符串轉換成NEC字的序列包括:
參考映射表,所述映射表包括多個NEC字與相應編碼字符之間的映射;
借助于所述映射表,標識所述元素的多個可能的編碼字符表示;以及
選擇所述元素的多個可能的編碼字符表示之一,其中所述選擇包括:確定所選擇的編碼字符表示匹配從所述URL字符串中提取的子串,以及其中所述提取的子串包括子域。
11.權利要求8的設備,其中所述NEC字包括中文字、日文字或韓文字。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于微軟公司,未經微軟公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110252294.3/1.html,轉載請聲明來源鉆瓜專利網。





