[發明專利]分布式搜索方法和系統無效
| 申請號: | 201010237815.3 | 申請日: | 2010-07-27 |
| 公開(公告)號: | CN102339292A | 公開(公告)日: | 2012-02-01 |
| 發明(設計)人: | 王愛寶;張濤;楊德利;李屹 | 申請(專利權)人: | 中國電信股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 中國國際貿易促進委員會專利商標事務所 11038 | 代理人: | 孫寶海 |
| 地址: | 100032 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分布式 搜索 方法 系統 | ||
技術領域
本發明涉及信息檢索領域,更具體地,涉及一種分布式搜索方法和系統。
背景技術
近年來,隨著社會性網絡服務(Social?Networking?Services,SNS)、博客等網站的盛行,大眾對此類網站信息越來越感興趣,而同時,網站出于宣傳和盈利的目的,也非常愿意將信息及時地提供出去。這樣就在搜索服務提供商(例如,google、baidu等)和SNS、博客類網站之間形成了一種可信的合作關系,共同為用戶提供及時的有價值的信息。
但是,由于目前的搜索技術多是利用爬蟲將互聯網上的信息抓取之后,在搜索平臺上進行信息分類并建立關系索引,最后入數據庫供使用者查詢搜索,所以這種方法存在如下幾個問題:
(1)在信息抓取過程中,諸如信息分類、建立索引、入庫等主要工作均在搜索平臺上進行,極大地影響了搜索引擎的效率;
(2)在信息抓取過程中,爬蟲需要將所抓取的信息送回搜索引擎,以便引擎對信息進行分類、甄別、保留有用信息以及剔除無用信息。在這個過程中,需要進行全文搜索,同樣地影響到搜索引擎的效率。
發明內容
本發明要解決的一個技術問題是提供一種分布式搜索方法,能夠顯著提高搜索引擎的效率。
本發明提供了一種分布式搜索方法,包括網站建立關鍵詞到包含關鍵詞的內容源的通用資源定位器(Universal?Resource?Locator,URL)的索引;將索引返回給搜索平臺。
根據本發明方法的一個實施例,該方法還包括:網站定期或不定期地從搜索平臺獲取關鍵詞。
根據本發明方法的另一實施例,該方法還包括:判斷網站中的內容源是否有內容更新,如果有內容更新,則準備建立索引。
根據本發明方法的又一實施例,該方法還包括:搜索平臺利用排序規則對返回的索引進行排序,并將排序后的結果存入數據庫以供檢索使用。
根據本發明方法的再一實施例,通過下述方式將索引返回給搜索平臺:爬蟲主動抓取的方式;或網站主動上報的方式。
本發明的分布式搜索方法,由內容源來自建索引,這樣一方面將建立索引的工作移至內容源,另一方面內容源無需再返回內容源的完整信息給搜索平臺,只需返回關鍵詞同內容源的URL的索引關系,從而大大提升了搜索引擎的效率,并減少了對被搜索網站的過度干擾。
本發明要解決的另一技術問題是提供一種分布式搜索系統,能夠顯著提高搜索引擎的效率。
本發明提供了一種分布式搜索系統,包括索引建立裝置,用于建立關鍵詞到包含關鍵詞的內容源的URL的索引;索引發送裝置,與索引建立裝置相連,用于將索引返回給搜索平臺。
根據本發明系統的一個實施例,該系統還包括:關鍵詞獲取裝置,與索引建立裝置相連,用于定期或不定期地從搜索平臺獲取關鍵詞。
根據本發明系統的另一實施例,該系統還包括:判斷裝置,與索引建立裝置相連,用于判斷內容源是否有內容更新,如果有內容更新,則準備建立索引。
根據本發明系統的又一實施例,該系統還包括:搜索平臺,與索引發送裝置相連,用于利用排序規則對返回的索引進行排序,并將排序后的結果存入數據庫以供檢索使用。
根據本發明系統的再一實施例,索引發送裝置通過下述方式將索引返回給搜索平臺:爬蟲主動抓取的方式;或網站主動上報的方式。
本發明的分布式搜索系統,由內容源來自建索引,這樣一方面將建立索引的工作移至內容源,另一方面內容源無需再返回內容源的完整信息給搜索平臺,只需返回關鍵詞同內容源的URL的索引關系,從而大大提升了搜索引擎的效率,并減少了對被搜索網站的過度干擾。
附圖說明
此處所說明的附圖用來提供對本發明的進一步理解,構成本申請的一部分。在附圖中:
圖1是本發明方法的第一實施例的流程示意圖。
圖2是本發明方法的第二實施例的流程示意圖。
圖3是本發明方法的第三實施例的流程示意圖。
圖4是本發明方法的第四實施例的流程示意圖。
圖5是本發明方法的第五實施例的流程示意圖。
圖6是本發明方法的第七實施例的流程示意圖。
圖7是本發明系統的第一實施例的結構示意圖。
圖8是本發明系統的第二實施例的結構示意圖。
圖9是本發明系統的第三實施例的結構示意圖。
圖10是本發明系統的第四實施例的結構示意圖。
圖11是本發明系統的第五實施例的結果示意圖。
具體實施方式
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國電信股份有限公司,未經中國電信股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010237815.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:球等鞭金藻花生糕及其制備方法
- 下一篇:本安先導電路





