[發明專利]電子文檔的搜索方法及系統無效
| 申請號: | 200910041027.4 | 申請日: | 2009-07-10 |
| 公開(公告)號: | CN101599069A | 公開(公告)日: | 2009-12-09 |
| 發明(設計)人: | 王頊 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 廣州華進聯合專利商標代理有限公司 | 代理人: | 何 平;曾旻輝 |
| 地址: | 518044廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 電子 文檔 搜索 方法 系統 | ||
【技術領域】
本發明涉及計算機網絡技術,特別是涉及一種電子文檔的搜索方法及系統。
【背景技術】
計算機網絡技術的發展極大的提高了人們獲取信息的便利性。計算機網絡中存儲了海量的信息,為了便于人們查找到自己所需的信息,搜索引擎被廣泛使用。人們通過輸入關鍵詞,即可找到包含該關鍵詞的網頁。
搜索引擎的工作過程大致可以分為如下三個步驟:
抓取網頁:每個獨立的搜索引擎都有自己的網頁抓取程序(spider,稱為網絡蜘蛛)。網頁抓取程序順著網頁中的超鏈接,連續地抓取網頁。被抓取的網頁被稱之為網頁快照。由于互聯網中超鏈接的應用很普遍,理論上,若網頁上有適當的超級鏈接,從一定范圍的網頁出發,就能搜集到絕大多數的網頁。
整理信息:搜索引擎抓到網頁后,還要做大量的預處理工作,才能提供檢索服務。搜索引擎整理信息的過程稱為“建立索引”。搜索引擎不僅要保存搜集起來的信息,還要將它們按照一定的規則進行編排。這樣,搜索引擎根本不用重新翻查它所有保存的信息而迅速找到所要的資料。
提供檢索服務:用戶輸入關鍵詞進行檢索,搜索引擎從索引數據庫中找到匹配該關鍵詞的網頁;搜索引擎返回主要是以網頁鏈接的形式提供的,這樣通過這些鏈接,用戶便能到達含有自己所需資料的網頁。通常搜索引擎會在這些鏈接下提供一小段來自這些網頁的摘要信息以幫助用戶判斷此網頁是否含有自己需要的內容。
隨著人們對搜索結果要求的提高,很多搜索引擎服務的提供商都提供了電子文檔的搜索服務。傳統的電子文檔搜索服務是根據用戶輸入的關鍵詞查找相應的電子文檔,查找到的電子文檔內通常包含用戶輸入的關鍵詞,返回的搜索結果頁面會顯示一部分該電子文檔的文字,以方便用戶了解該電子文檔的內容。然而,這種電子文檔的搜索方法與一般的網頁搜索方法完全一致,只是將搜索內容限制在某一單個的電子文檔內,沒有體現出電子文檔的自身特點,導致搜索到的電子文檔數量少或者不符合用戶的需求。
【發明內容】
基于此,有必要提供一種更好的滿足用戶需求的電子文檔的搜索方法。
一種電子文檔的搜索方法,包括以下步驟:抓取電子文檔及所述電子文檔的關聯信息;建立包含所述關聯信息的電子文檔的索引;響應用戶的搜索請求返回包含所述關聯信息的搜索結果。
在優選的實施例中,所述建立包含所述關聯信息的電子文檔的索引的步驟包括:判斷是否已經為該電子文檔建立索引;如果未為該電子文檔建立索引則為該電子文檔建立索引;如果已經為該電子文檔建立索引則將所述關聯信息追加存入索引中。
在優選的實施例中,所述建立包含所述關聯信息的電子文檔的索引的步驟包括:解析該電子文檔的內容,并將所述電子文檔的內容作為所述索引的一部分。
在優選的實施例中,所述建立包含所述關聯信息的電子文檔的索引的步驟包括:根據所述電子文檔的鏈接地址建立唯一的電子文檔編號,并根據所述電子文檔編號組織所述索引。
在優選的實施例中,所述關聯信息包括鏈接到該電子文檔的鏈接文字信息或提供鏈接到該電子文檔的鏈接的網頁頁面內容信息。
在優選的實施例中,所述關聯信息包括用戶對該電子文檔的評價信息。
此外,還有必要提供一種更好的滿足用戶需求的電子文檔的搜索系統。
一種電子文檔的搜索系統,包括:數據抓取模塊,用于抓取電子文檔及所述電子文檔的關聯信息;索引模塊,與所述數據抓取模塊相連建立包含所述關聯信息的電子文檔的索引;存儲模塊,與所述索引模塊相連以存儲所述索引;檢索模塊,與所述存儲模塊連接,響應用戶的搜索請求返回包含所述關聯信息的搜索結果。
在優選的實施例中,所述索引模塊還用于查詢所述存儲模塊判斷是否已經為該電子文檔建立索引,如果未為該電子文檔建立索引則為該電子文檔建立索引,如果已經為該電子文檔建立索引則將所述關聯信息追加存入索引中。
在優選的實施例中,還包括內容解析模塊,所述內容解析模塊與所述數據抓取模塊相連以解析該電子文檔的內容,所述索引模塊與所述內容解析模塊相連并將所述電子文檔的內容作為所述索引的一部分。
在優選的實施例中,所述關聯信息包括鏈接到該電子文檔的鏈接文字信息、提供鏈接到該電子文檔的鏈接的網頁頁面內容信息、用戶對該電子文檔的評價信息中的一種或兩種以上。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910041027.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:在土地利用信息多尺度表達中的空間數據庫綜合方法
- 下一篇:流程處理方法和裝置





