[發明專利]一種基于查詢詞進行搜索的方法和搜索裝置有效
| 申請號: | 201010559148.0 | 申請日: | 2010-11-25 |
| 公開(公告)號: | CN102043833A | 公開(公告)日: | 2011-05-04 |
| 發明(設計)人: | 馮鑫;吳明達;佟子健 | 申請(專利權)人: | 北京搜狗科技發展有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 蘇培華 |
| 地址: | 100084 北京市海淀區中關*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 查詢 進行 搜索 方法 裝置 | ||
技術領域
本發明涉及一種互聯網信息搜索方法及工具,特別涉及一種基于查詢詞進行搜索的方法和搜索裝置。
背景技術
隨著網絡技術的發展,搜索引擎得到了不斷的完善,通過搜索引擎可以從互聯網上獲取各種信息。搜索引擎是當前互聯網幫助用戶快速獲取信息的主要途徑之一。用戶提交一個查詢詞(Query)給搜索引擎,搜索引擎返回給用戶與該查詢詞相關的搜索結果,這些結果按與查詢詞相關的程度從高到低排列。
現有的搜索引擎技術大致可以分為兩種。傳統搜索引擎,使用網絡爬蟲從互聯網抓取網頁,建立索引,并為用戶提供查詢服務,以百度、谷歌的網頁搜索為代表。垂直搜索引擎,對特定領域的數據進行抓取、索引和搜索,并為用戶提供查詢服務,以搜狗音樂搜索為代表。例如,還存在新聞、音樂、圖片、視頻、購物、地圖等專業領域的垂直搜索引擎。
傳統的搜索引擎技術通常包括網頁抓取、網頁處理、搜索服務等幾個部分。無論哪一家搜索引擎,都不可能去抓取互聯網的全部內容,因此各家搜索引擎通常都是索引整個互聯網的一個子集;另外,傳統的網絡爬蟲基于網頁之間的鏈接進行抓取,對于沒有鏈接的頁面難以抓取;最后,傳統搜索引擎從抓取、建立索引、提供查詢服務需要一定周期,對大部分內容無法做到實時更新。
同時,一種搜索引擎可能無法滿足所有人或者一個人的所有搜索需求。在某些情況下,為了得到較為全面及準確的搜索結果,人們需要使用多個搜索引擎來進行搜索,通過對搜索結果進行比較和篩選來獲取搜索結果,但是其操作較為繁瑣,降低了搜索效率,也提高了搜索的難度。
進一步,對于候選多個搜索引擎而言,將這類候選引擎都選擇查詢并將結果返回是不可取的(搜索時間將大大加長),且會存在某些引擎對衣服類商品詞有更好的結果,但對電子產品的商品詞效果會比較差,這使得搜索結果無法更好的滿足用戶需求,即準確度降低。
總之,本領域技術人員希望能夠對用戶的查詢意圖進行分析,以便更好的提供搜索結果,提高用戶搜索的準確性。
發明內容
本發明所要解決的技術問題是提供一種基于查詢詞進行搜索的方法及搜索裝置,能夠對用戶的查詢意圖進行分析,選擇與用戶需求相關的搜索引擎,進行有針對性的搜索。
為了解決上述問題,本發明公開了一種基于查詢詞進行搜索的方法,包括以下步驟:搜索客戶端獲取用戶輸入的查詢詞,結合查詢詞屬性庫,從多個搜索引擎中選擇適合該查詢詞的搜索引擎;所述查詢詞屬性庫用于表征各查詢詞或各查詢詞類別與各搜索引擎的相關程度;獲取所選擇的搜索引擎的搜索結果信息,處理后進行展示。
優選的,所述選擇為由客戶端基于本地查詢詞屬性庫選擇。
優選的,所述方法還可以包括:發送查詢詞至搜索服務器端,由服務器端同時執行查詢詞分析操作;服務器端選擇搜索引擎并將選擇的搜索引擎及其權重返回給客戶端,客戶端根據服務器端選擇的搜索引擎及其權重對客戶端選擇的搜索引擎的權重進行調整。
優選的,所述方法還可以包括:客戶端接收服務器端返回的查詢詞分析的相關參數;則所述處理包括:利用分析查詢詞得到的相關參數,通過對搜索結果數和/或搜索結果的摘要與查詢詞的匹配程度,對搜索結果進行評估,得到評估分值;如果該評估分值低于預設閾值,則對相應搜索引擎的搜索結果進行降權或者刪除。
優選的,所述相關參數包括查詢詞分詞信息或糾錯信息等。
優選的,所述服務器端的查詢詞屬性庫通過如下方法建立:步驟11,統計查詢詞或查詢詞類別與搜索引擎的相關信息;步驟12,根據步驟11中的統計信息計算出查詢詞或查詢詞類別與各搜索引擎相關程度的向量;步驟13,根據步驟12中的相關程度向量生成查詢詞屬性庫。
優選的,所述客戶端查詢詞屬性庫從服務器端更新得到,其通過提取服務器端屬性庫中的關鍵信息而生成。
優選的,所述步驟11中相關信息的統計包括以下步驟:獲取各搜索引擎的查詢詞分布數據;獲取查詢詞在各搜索引擎的點擊分布數據。
優選的,所述方法還可以包括:收集用戶在當前搜索客戶端上,對所展示的搜索結果的點擊情況,對查詢詞屬性庫進行修正。
依據本發明的另一實施例,還公開了一種基于查詢詞的搜索裝置,其位于搜索客戶端,具體可以包括:
第一選擇模塊,用于根據所獲取的查詢詞,結合查詢詞屬性庫,從多個搜索引擎中選擇適合該查詢詞的搜索引擎;所述查詢詞屬性庫用于表征各查詢詞或各查詢詞類別與各搜索引擎的相關程度;
獲取模塊,用于獲取搜索引擎的搜索結果信息;
解析展示模塊,用于對搜索結果處理后進行展示。
優選的,所述裝置還可以包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京搜狗科技發展有限公司,未經北京搜狗科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010559148.0/2.html,轉載請聲明來源鉆瓜專利網。





