[發明專利]分布式檢索方法和系統有效
| 申請號: | 201210016675.6 | 申請日: | 2012-01-18 |
| 公開(公告)號: | CN102436513A | 公開(公告)日: | 2012-05-02 |
| 發明(設計)人: | 吳衛榮;劉玉龍;儀新宇;徐華;王團偉;陳正中;李志雄;耿慶斌;袁平;杜善姍 | 申請(專利權)人: | 中國電子科技集團公司第十五研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京市京大律師事務所 11321 | 代理人: | 黃啟行;方曉明 |
| 地址: | 100083 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分布式 檢索 方法 系統 | ||
技術領域
本發明涉及計算機通信技術,尤其涉及一種分布式檢索技術。
背景技術
信息檢索技術是現代信息社會中非常關鍵的技術之一。信息檢索是指將信息按一定的方式組織和存儲起來,并根據信息用戶的信息需求查找所需信息的過程和技術,所以信息檢索的全稱又叫“信息存儲與檢索”。隨著Internet在全世界范圍內迅猛發展,數字化信息爆炸式增長。目前檢索系統的主要數據來源是web,網絡信息的檢索技術成為發展趨勢。網絡信息進行檢索可分為以下幾個部分:
數據預處理:網絡信息的主要數據來源是web,格式包括網頁、WORD文檔、PDF文檔、圖片、視頻文件等,這些格式的數據除了正文內容外,還有大量的標記信息。因此,需要對這些數據進行數據預處理,從多種格式的數據中提取正文和其它所需信息。
索引生成:根據上述提取的信息來構建生成索引。索引中記錄了提取的信息的來源。例如,提取的信息可以是文檔中的若干關鍵詞,索引文件中記錄了這些關鍵詞,以及關鍵詞來源,那么,只要在索引文件中找到這些詞,也就找到了包含它們的文檔。
查詢處理:用戶在輸入查詢條件后,進一步對用戶輸入的查詢條件做處理,采用查詢擴展,以更準確把握用戶的真實信息需求。比如,進行分詞處理、或相近詞匯聯想處理后,從而生成最終的查詢條件。
檢索:檢索系統根據最終的查詢條件對生成的索引文件進行檢索,查詢到相應的結果時,返回查詢結果。通常,為了把最符合用戶需求的結果顯示在前面,一般還會對查詢結果進行重排序。
隨著信息化的大力發展,全國很多大型企業、機構都建設了自己的門戶網站,這些門戶網站下面還設有很多個子網站,甚至多達1000多個子網站。有巨大的文件、視頻和圖片數據。現有的企業信息檢索系統是基于集中式架構的,上述的數據預處理、索引生成、查詢處理、以及檢索操作都是基于單機的,生成的索引文件也是統一集中存儲。這種檢索系統在海量數據應用情況下,由于單機管理、保存索引文件數量有限,若保存索引文件數量過大,會導致索引文件進行查詢、檢索操作的速度緩慢,難以在用戶可以接受的時間內返回所需結果。
發明內容
本發明實施例提供了一種分布式檢索方法和系統,提高系統檢索速度,及時返回檢索結果。
根據本發明的一個方面,提供了一種分布式檢索方法,包括:
檢索節點接收用戶通過客戶端瀏覽器輸入的檢索條件,并對所述檢索條件進行處理,生成查詢任務;
所述檢索節點將所述查詢任務發送給索引節點集群中的索引控制節點;
所述索引控制節點將接收的查詢任務向所述索引節點集群中的每個索引節點發送;
每個索引節點根據接收的查詢任務對本節點存儲的索引文件進行查詢后得到查詢結果,并將查詢結果發送給所述索引控制節點;
所述索引控制節點將各索引節點發送的查詢結果向所述檢索節點返回;
所述檢索節點合并接收的查詢結果,并將合并后的查詢結果發送給所述客戶端。
其中,所述索引節點集群中的索引節點所存儲的索引文件為采集節點集群發送的。
所述采集節點集群向所述索引節點集群中的索引節點發送索引文件具體為:
所述采集節點集群中的各采集節點將索引文件發送到所述索引控制節點;
所述索引控制節點負責管理各索引節點的索引文件存儲。
在所述采集節點將索引文件發送到所述索引控制節點之前,所述方法還包括:
所述采集節點抓取網頁,對抓取的網頁進行結構化處理,生成所述索引文件。
較佳的,所述采集節點對抓取的網頁進行結構化處理,生成所述索引文件具體為:
所述采集節點對抓取的網頁,根據網頁標簽的種類設置權重;根據設置的權重生成所述索引文件。
根據本發明的另一個方面,還提供了一種分布式檢索系統,包括:
檢索節點,用于接收用戶通過客戶端瀏覽器輸入的檢索條件,對所述檢索條件進行處理后,生成查詢任務;并將所述查詢任務進行發送;
索引節點集群,包括索引控制節點和多個索引節點;
其中,所述索引控制節點用于接收所述檢索節點發送的查詢任務,并將接收的查詢任務向所述索引節點集群中的每個索引節點發送;
所述索引節點用于根據接收的查詢任務對本節點存儲的索引文件進行查詢后得到查詢結果,并將查詢結果發送給所述索引控制節點;
所述索引控制節點將各索引節點發送的查詢結果向所述檢索節點返回;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國電子科技集團公司第十五研究所,未經中國電子科技集團公司第十五研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210016675.6/2.html,轉載請聲明來源鉆瓜專利網。





