[發(fā)明專利]一種分布式并行信息檢索系統(tǒng)及其方法無效
| 申請?zhí)枺?/td> | 201010132955.4 | 申請日: | 2010-03-26 |
| 公開(公告)號: | CN102200979A | 公開(公告)日: | 2011-09-28 |
| 發(fā)明(設(shè)計)人: | 鮑英;鄭修虹;孔佳薇;葉青;程三艷 | 申請(專利權(quán))人: | 上海市浦東科技信息中心 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 上海集信知識產(chǎn)權(quán)代理有限公司 31254 | 代理人: | 周成 |
| 地址: | 201203 上海市浦*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 分布式 并行 信息 檢索系統(tǒng) 及其 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及信息檢索系統(tǒng)領(lǐng)域,特別涉及一種分布式并行信息檢索系統(tǒng)及其方法。
背景技術(shù)
隨著計算機的普及和網(wǎng)絡(luò)的日益發(fā)展,數(shù)字化信息爆炸式增長。以WEB網(wǎng)頁為例,據(jù)可靠估計,WEB網(wǎng)頁的增長速度可以達到每6個月翻一番。到2004年年底,最大的搜索引擎可以索引到的WEB網(wǎng)頁的數(shù)目大概為80億-100億左右。而這個數(shù)字只占到整個WEB網(wǎng)頁數(shù)目的很小一部分。搜索引擎能夠搜索到的大部分網(wǎng)頁都稱為表層頁面。據(jù)研究,WEB中的深層頁面(如:需要權(quán)限才能進入的網(wǎng)頁、對網(wǎng)絡(luò)數(shù)據(jù)庫的查詢和調(diào)用的返回頁面、網(wǎng)絡(luò)上的圖像、音頻、視頻等多媒體文檔和各種格式的文檔、軟件等等)的大小大概是可見WEB頁面大小的400到500倍。另外,很多大公司的內(nèi)部Intranet甚至個人都擁有大量的電子文檔。所有這些數(shù)字都說明,WEB上的數(shù)字化信息實在是大得驚人。一方面,這些地理位置分散的異構(gòu)數(shù)字化信息中包含了大量寶貴的資源,用戶迫切地需要從這些信息中找到所需信息;另一方面,雖然單臺計算機的處理能力不斷提高,但是在如此大規(guī)模的條件下,要對這樣海量的信息進行檢索,單臺計算機的處理能力畢竟有限,特別需要多臺計算機進行“團隊作戰(zhàn)”。而并行計算和分布式計算能夠利用多臺計算機或者多個處理器的計算或存儲資源來解決大規(guī)模問題。因此,將并行處理或者分布式處理技術(shù)引入到信息檢索當(dāng)中,便成為了信息檢索領(lǐng)域急需解決的技術(shù)問題。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種分布式并行信息檢索系統(tǒng)及其方法,其采用并行處理和分布式處理技術(shù)對互聯(lián)網(wǎng)上的信息進行檢索。
一方面,本發(fā)明提供一種分布式并行信息檢索系統(tǒng),包括:數(shù)據(jù)采集單元,索引單元和檢索單元,所述數(shù)據(jù)采集單元從internet上采集數(shù)據(jù),所述索引單元對采集到的數(shù)據(jù)進行加工和組織,建立起適合檢索的數(shù)據(jù)結(jié)構(gòu)和存儲方式,所述檢索單元對用戶提交的查詢進行分析處理,進行相似度計算和排名,并對查詢結(jié)果進行整理。
所述數(shù)據(jù)采集單元包括三層結(jié)構(gòu):
第一層為采集器,所述采集器為數(shù)據(jù)數(shù)據(jù)采集單元的終端數(shù)據(jù)采集裝置;
第二層為采集控制器,所述采集控制器用以管理和分配任務(wù)給多個采集器;
第三層為數(shù)據(jù)存儲服務(wù)器,所述數(shù)據(jù)服務(wù)器用以存儲采集器提交的數(shù)據(jù)。
所述采集器與采集控制器之間采用分布式的網(wǎng)絡(luò)結(jié)構(gòu),由采集控制器定義采集器的異構(gòu)化數(shù)據(jù)標(biāo)準(zhǔn),并進行數(shù)據(jù)采集的數(shù)據(jù)集劃分,。
所述各采集器之間采用并行式的網(wǎng)絡(luò)結(jié)構(gòu)連接,同時進行多進程數(shù)據(jù)采集并傳輸?shù)綌?shù)據(jù)存儲服務(wù)器。
所述索引單元包括數(shù)個索引服務(wù)器,所述索引服務(wù)器與數(shù)據(jù)采集單元和檢索單元相連,索引服務(wù)器之間采用并行式的網(wǎng)絡(luò)結(jié)構(gòu)連接以進行并發(fā)式的編碼識別、轉(zhuǎn)換、分詞、索引等工作。
所述檢索單元采用分布式的網(wǎng)絡(luò)結(jié)構(gòu),包括三層:
第一層為客戶端,所述客戶端為用戶進行檢索操作和接收檢索結(jié)果的裝置;
第二層為檢索控制器:所述檢索控制器接受到多個客戶端的查詢請求后分發(fā)給檢索服務(wù)器,并對檢索服務(wù)器返回的結(jié)果進行合并傳回客戶端;
第三層為檢索服務(wù)器,所述檢索服務(wù)器執(zhí)行檢索控制器分發(fā)的檢索任務(wù)并返回檢索結(jié)果,同時對檢索結(jié)果進行分析和處理,同時進行檢索結(jié)果相似度的分析和排名。
所述客戶端采用瘦客戶端方式,只要一次部署,客戶端每次啟動都會自動更新,并具有數(shù)據(jù)批量操作功能。
另一方面,本發(fā)明還提供一種分布式并行信息檢索方法,包括:
建立數(shù)據(jù)采集單元,所述數(shù)據(jù)采集單元從internet上采集數(shù)據(jù);
建立索引單元,所述索引單元對采集到的數(shù)據(jù)進行加工和組織,建立起適合檢索的數(shù)據(jù)結(jié)構(gòu)和存儲方式;
建立所述檢索單元對用戶提交的查詢進行分析處理,進行相似度計算和排名,并對查詢結(jié)果進行整理。
所述建立數(shù)據(jù)采集單元還包括以下步驟:
建立采集器,所述采集器為數(shù)據(jù)數(shù)據(jù)采集單元的終端數(shù)據(jù)采集裝置;
建立采集控制器,所述采集控制器用以管理和分配任務(wù)給多個采集器;
建立數(shù)據(jù)存儲服務(wù)器,所述數(shù)據(jù)服務(wù)器用以存儲采集器提交的數(shù)據(jù)。
所述采集器與采集控制器之間采用分布式的網(wǎng)絡(luò)結(jié)構(gòu),由采集控制器定義采集器的異構(gòu)化數(shù)據(jù)標(biāo)準(zhǔn),并進行數(shù)據(jù)采集的數(shù)據(jù)集劃分,。
所述各采集器之間采用并行式的網(wǎng)絡(luò)結(jié)構(gòu)連接,同時進行多進程數(shù)據(jù)采集并傳輸?shù)綌?shù)據(jù)存儲服務(wù)器。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海市浦東科技信息中心,未經(jīng)上海市浦東科技信息中心許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010132955.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





