[發明專利]一種搜索結果排序方法和搜索結果排序器無效
| 申請號: | 201010559233.7 | 申請日: | 2010-11-25 |
| 公開(公告)號: | CN102004782A | 公開(公告)日: | 2011-04-06 |
| 發明(設計)人: | 吳明達;馮鑫;張超旭;張雷剛;佟子健 | 申請(專利權)人: | 北京搜狗科技發展有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 蘇培華 |
| 地址: | 100084 北京市海淀區中關*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 搜索 結果 排序 方法 | ||
技術領域
本發明涉及一種互聯網信息搜索方法及工具,特別涉及一種搜索結果排序方法和搜索結果排序器。
背景技術
隨著網絡技術的發展,搜索引擎得到了不斷的完善,通過搜索引擎可以從互聯網上獲取各種信息。搜索引擎是當前互聯網幫助用戶快速獲取信息的主要途徑之一。用戶提交一個查詢詞(Query)給搜索引擎,搜索引擎返回給用戶與該查詢詞相關的搜索結果,這些結果按與查詢詞相關的程度從高到低排列。
現有的搜索引擎技術包括使用網絡爬蟲從互聯網抓取網頁,建立索引,并為用戶提供查詢服務,以及對特定領域的數據進行抓取、索引和搜索,并為用戶提供查詢服務。例如,新聞、音樂、圖片、視頻、購物、地圖等專業領域的搜索引擎。
傳統的搜索引擎技術通常包括網頁抓取、網頁處理、搜索服務等幾個部分。無論哪一家搜索引擎,都不可能去抓取互聯網的全部內容,因此各家搜索引擎通常都是索引整個互聯網的一個子集;另外,傳統的網絡爬蟲基于網頁之間的鏈接進行抓取,對于沒有鏈接的頁面難以抓取;最后,傳統搜索引擎從抓取、建立索引、提供查詢服務需要一定周期,對大部分內容無法做到實時更新。
同時,一種搜索引擎可能無法滿足所有人或者一個人的所有搜索需求。在某些情況下,為了得到較為全面及準確的搜索結果,人們通常需要使用多個搜索引擎來進行搜索,通過對搜索結果進行比較和篩選來獲取搜索結果,操作較為繁瑣,降低了搜索效率,也提高了搜索的難度。
進一步地,每個搜索引擎會按照自定的方式對搜索結果進行排序,通常情況下會按照與搜索詞的相關程度進行排序。但是因為不同的搜索引擎的側重點不同,其搜索出的結果及對于相關程度的判定方式也會有所不同,因此不同的搜索引擎的排序方式可能會不同。當用戶在不同的搜索引擎中對同一搜索詞的搜索結果中的排序可能會出現較大的差別,用戶需要對多個搜索引擎的結果進行比較再判斷,較為不便。
發明內容
本發明所要解決的技術問題是提供一種搜索結果排序方法和搜索結果排序器,能夠整合多個搜索引擎的搜索結果并對搜索結果進行排序。
為了解決上述問題,本發明公開了一種搜索結果排序方法,所述搜索結果來自于多個搜索引擎,包括以下步驟:針對來自于多個搜索引擎的搜索結果進行基礎排序;對該基礎排序進行修正調整,得到搜索結果的最終排序。
優選的,所述針對來自于多個搜索引擎的搜索結果進行基礎排序包括:確定各搜索引擎的權重;確定搜索引擎上的排序位置權重;根據搜索引擎的權重和排序位置權重,針對來自于多個搜索引擎的搜索結果進行基礎排序。
優選的,所述確定各搜索引擎的權重的步驟進一步包括:確定各搜索引擎的基本權重;分析用戶所提交的查詢詞的類別,并根據分析結果,調整各搜索引擎的基本權重,得到各搜索引擎的權重。
優選的,所述確定各搜索引擎的權重的步驟進一步包括:確定各搜索引擎的基本權重;依據查詢詞與各搜索引擎的相關程度,調整各搜索引擎的基本權重,得到各搜索引擎的權重。
優選的,所述對該基礎排序進行修正調整包括:根據搜索結果的共現信息,對該基礎排序進行修正調整。
優選的,所述共現信息包括:在多個搜索引擎中出現具有相同網址的搜索結果項;和/或,在多個搜索引擎中出現相同或近似的標題和摘要的搜索結果項;和/或,在多個搜索引擎中出現屬于同一站點的搜索結果項;和/或,在多個搜索引擎中出現屬于同一域的搜索結果項。
優選的,所述對該基礎排序進行修正調整還包括:執行濾重操作;所述濾重操作通過比對搜索結果的標題、和/或摘要的相似程度、和/或URL來進行。
優選的,所述修正調整還包括:識別并過濾低質量的搜索結果,所述過濾包括降權或刪除。
優選的,所述搜索結果的質量通過對查詢詞的文本覆蓋程度來評估。
優選的,所述方法還可以包括:將修正調整后的搜索結果排序信息發送至特定搜索引擎,用于改進特定搜索引擎的搜索結果排序。
依據本發明的另一實施例,還公開了一種搜索結果排序器,包括:
排序模塊,針對來自于多個搜索引擎的搜索結果進行基礎排序;
調整模塊,用于對基礎排序進行修正調整,得到搜索結果的最終排序。
優選的,所述搜索結果排序器還包括:
第一權重確定模塊,用于確定各搜索引擎的權重;
第二權重確定模塊,用于確定各搜索引擎上的排序位置權重,
所述排序模塊根據搜索引擎的權重和排序位置權重,針對來自于多個搜索引擎的搜索結果進行基礎排序。
優選的,所述第一權重確定模塊具體包括:、基本權重獲取模塊,用于確定各搜索引擎的基本權重;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京搜狗科技發展有限公司,未經北京搜狗科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010559233.7/2.html,轉載請聲明來源鉆瓜專利網。





