[發(fā)明專利]一種基于云計算的分布式搜索方法無效

申請?zhí)枺?/td>	201310536651.8	申請日：	2013-11-04
公開（公告）號：	CN103617174A	公開（公告）日：	2014-03-05
發(fā)明（設(shè)計）人：	向陽;陳佑雄;張依楊;平宇;張波;袁書寒	申請（專利權(quán)）人：	同濟(jì)大學(xué)
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	上海東亞專利商標(biāo)代理有限公司 31208	代理人：	陳樹德;劉瑩
地址：	200092 ***	國省代碼：	上海;31
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種基于計算分布式搜索方法
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

技術(shù)領(lǐng)域

本發(fā)明涉及一種分布式的搜索方法，尤其是處理大數(shù)據(jù)下進(jìn)行快速檢索的基于云計算的分布式搜索方法。?

背景技術(shù)

隨著Internet迅速發(fā)展，WWW(World?Wide?Web簡稱WWW)已成為一個巨大的信息空間，為用戶提供了極具價值的信息資源。而面對大量的信息資源，通過瀏覽器一步步瀏覽已十分不便，如何快捷、準(zhǔn)確地從WWW上獲取所需信息，成為至關(guān)重要的問題。搜索引擎的出現(xiàn)，大大提高了人們搜集信息的能力。然而，現(xiàn)有的搜索引擎在搜索效率、信息維護(hù)、信息重復(fù)、網(wǎng)絡(luò)及站點(diǎn)、負(fù)載等方面還存在著問題和困難。?

目前，從體系結(jié)構(gòu)上看，大部分搜索引擎是集中式的。即從Internet上取回頁面，經(jīng)過分析、處理后將所有的索引信息集中存儲在某個站點(diǎn)，用戶通過訪問該站點(diǎn)實(shí)現(xiàn)查詢。它們之間通常沒有什么協(xié)作，各自獨(dú)立搜索和處理信息，造成了大量的重復(fù)工作和嚴(yán)重的帶寬浪費(fèi)，有時甚至能造成網(wǎng)絡(luò)阻塞。這種體系結(jié)構(gòu)難以適應(yīng)網(wǎng)絡(luò)規(guī)模的日益擴(kuò)大，業(yè)界已紛紛提出建立分布式搜索引擎的策略。?

傳統(tǒng)的搜索引擎，即通用搜索引擎，在應(yīng)用中能夠?yàn)橛脩籼峁┐罅康乃阉鹘Y(jié)果，但是這些通用搜索引擎在追求返回更多信息的同時，很難兼顧到搜索結(jié)果的準(zhǔn)確度和相關(guān)度，從而導(dǎo)致網(wǎng)頁覆蓋率較低、信息更新不及時等問題。由于傳統(tǒng)搜索引擎存在著覆蓋率有限，查準(zhǔn)率低，用戶相關(guān)性差的缺點(diǎn)，而且行業(yè)用戶有著信息需求相對集中、分類更加精細(xì)的要求，通用搜索引擎缺乏足夠的導(dǎo)向作用。?

傳統(tǒng)搜索引擎缺乏個性化的局限具體表現(xiàn)在：?

(1)網(wǎng)絡(luò)數(shù)據(jù)海量性：網(wǎng)絡(luò)信息數(shù)量大覆蓋面廣，對這些數(shù)據(jù)的計算和存儲需要消耗很多的時間與存儲空間。

(2)用戶差異性：用戶背景知識不同，各自對詞義的理解也不盡相同，對于相同的檢索詞不同用戶有不同的傾向。?

(3)檢索與時間相關(guān)：用戶在不同時期或階段的同一檢索請求，所得到的仍是完全相同的檢索結(jié)果，對用戶不具有自適應(yīng)能力。?

(4)檢索詞的表達(dá)：用戶由于領(lǐng)域知識的不足，而搜索引擎的查詢接口又具有局限性，從而無法準(zhǔn)確的實(shí)現(xiàn)用戶的搜索意圖。?

因此，如何使用戶方便快捷的從海量的搜索結(jié)果中得到所需的信息，成為一個迫切需要解決的課題。?

發(fā)明內(nèi)容

本發(fā)明所要解決的技術(shù)問題是要提供一種檢索結(jié)果更精準(zhǔn)的基于云計算的分布式搜索方法。?

為了解決以上的技術(shù)問題，本發(fā)明提供了一種基于云計算的分布式搜索方法，該方法包括以下步驟：?

步驟⑴：通過分布式的網(wǎng)絡(luò)爬蟲爬取多種格式的網(wǎng)絡(luò)文件，包括HTML、PPT、EXCEL、PDF文件；

步驟⑵：通過分布式的并行抽取解析爬蟲所爬取到的文件，抽取格式為自定義的文檔表格式，提取其中的正文、標(biāo)題、作者等相關(guān)信息；

具體是：URL+標(biāo)題+解析時間+作者+來源+正文+pr值+類別+鏈接。

其中：url是網(wǎng)頁鏈接，標(biāo)題是網(wǎng)頁標(biāo)題，解析時間是指解析當(dāng)天日期，作者是指網(wǎng)頁作者，初始值為“未知”，來源是指網(wǎng)頁文檔來源，初始值為“未知”，正文是指網(wǎng)頁去掉html標(biāo)簽后的的正文內(nèi)容，Pr值指pagerank值，默認(rèn)為1，類別是指網(wǎng)頁的分類，默認(rèn)是0，鏈接是指網(wǎng)頁指向的鏈接，通過正則表達(dá)式篩選匹配，中間用空格連接。?

步驟⑶：將抽取好的文檔內(nèi)容存入分布式的數(shù)據(jù)庫中，建立文檔表數(shù)據(jù)庫；?

步驟⑷：由文檔表數(shù)據(jù)庫建立索引表也采用并行計算技術(shù)，索引表格式也為自定義的格式；

具體是：關(guān)鍵詞+/007+url+”/t”+詞頻+”/t”+pr+”/t”+type。

其中：關(guān)鍵詞是倒排索引的檢索詞；url是文檔的鏈接；詞頻是關(guān)鍵詞在該文檔中出現(xiàn)的次數(shù)；Pr值是文檔pagerank值；Time是解析時間；Type是文檔分類。?

步驟⑸：將索引文件導(dǎo)入索引數(shù)據(jù)庫，為檢索器提供索引數(shù)據(jù)；?

步驟⑹：對檢索結(jié)果采用PageRank以及優(yōu)化的在線排序算法。

其中，所述的步驟⑴的爬取網(wǎng)絡(luò)文件包括以下步驟：?

①設(shè)置初始爬取的網(wǎng)頁網(wǎng)址，由于網(wǎng)絡(luò)爬蟲爬取網(wǎng)頁文件是一個遞歸的過程，為了取得更好的全網(wǎng)爬取效果，初始網(wǎng)頁url一般設(shè)置為導(dǎo)航網(wǎng)址；

②從步驟①中得到一個導(dǎo)航網(wǎng)站的頁面，通過解析該頁面，得到大量網(wǎng)站首頁；

③繼續(xù)解析這些首頁可以得到更多的網(wǎng)址，再重復(fù)此過程。

其中，所述的步驟⑷中的PageRank值計算方法如下：?

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費(fèi)下載。

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于同濟(jì)大學(xué)，未經(jīng)同濟(jì)大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201310536651.8/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種海綿發(fā)泡機(jī)上的倒料裝置
下一篇：輪胎成型拼花模具

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索；及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計算機(jī)輔助設(shè)計

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊】