[發(fā)明專利]一種基于云計算的分布式搜索方法無效
| 申請?zhí)枺?/td> | 201310536651.8 | 申請日: | 2013-11-04 |
| 公開(公告)號: | CN103617174A | 公開(公告)日: | 2014-03-05 |
| 發(fā)明(設(shè)計)人: | 向陽;陳佑雄;張依楊;平宇;張波;袁書寒 | 申請(專利權(quán))人: | 同濟(jì)大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 上海東亞專利商標(biāo)代理有限公司 31208 | 代理人: | 陳樹德;劉瑩 |
| 地址: | 200092 *** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 計算 分布式 搜索 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種分布式的搜索方法,尤其是處理大數(shù)據(jù)下進(jìn)行快速檢索的基于云計算的分布式搜索方法。?
背景技術(shù)
隨著Internet迅速發(fā)展,WWW(World?Wide?Web簡稱WWW)已成為一個巨大的信息空間,為用戶提供了極具價值的信息資源。而面對大量的信息資源,通過瀏覽器一步步瀏覽已十分不便,如何快捷、準(zhǔn)確地從WWW上獲取所需信息,成為至關(guān)重要的問題。搜索引擎的出現(xiàn),大大提高了人們搜集信息的能力。然而,現(xiàn)有的搜索引擎在搜索效率、信息維護(hù)、信息重復(fù)、網(wǎng)絡(luò)及站點(diǎn)、負(fù)載等方面還存在著問題和困難。?
目前,從體系結(jié)構(gòu)上看,大部分搜索引擎是集中式的。即從Internet上取回頁面,經(jīng)過分析、處理后將所有的索引信息集中存儲在某個站點(diǎn),用戶通過訪問該站點(diǎn)實(shí)現(xiàn)查詢。它們之間通常沒有什么協(xié)作,各自獨(dú)立搜索和處理信息,造成了大量的重復(fù)工作和嚴(yán)重的帶寬浪費(fèi),有時甚至能造成網(wǎng)絡(luò)阻塞。這種體系結(jié)構(gòu)難以適應(yīng)網(wǎng)絡(luò)規(guī)模的日益擴(kuò)大,業(yè)界已紛紛提出建立分布式搜索引擎的策略。?
傳統(tǒng)的搜索引擎,即通用搜索引擎,在應(yīng)用中能夠?yàn)橛脩籼峁┐罅康乃阉鹘Y(jié)果,但是這些通用搜索引擎在追求返回更多信息的同時,很難兼顧到搜索結(jié)果的準(zhǔn)確度和相關(guān)度,從而導(dǎo)致網(wǎng)頁覆蓋率較低、信息更新不及時等問題。由于傳統(tǒng)搜索引擎存在著覆蓋率有限,查準(zhǔn)率低,用戶相關(guān)性差的缺點(diǎn),而且行業(yè)用戶有著信息需求相對集中、分類更加精細(xì)的要求,通用搜索引擎缺乏足夠的導(dǎo)向作用。?
傳統(tǒng)搜索引擎缺乏個性化的局限具體表現(xiàn)在:?
(1)網(wǎng)絡(luò)數(shù)據(jù)海量性:網(wǎng)絡(luò)信息數(shù)量大覆蓋面廣,對這些數(shù)據(jù)的計算和存儲需要消耗很多的時間與存儲空間。
(2)用戶差異性:用戶背景知識不同,各自對詞義的理解也不盡相同,對于相同的檢索詞不同用戶有不同的傾向。?
(3)檢索與時間相關(guān):用戶在不同時期或階段的同一檢索請求,所得到的仍是完全相同的檢索結(jié)果,對用戶不具有自適應(yīng)能力。?
(4)檢索詞的表達(dá):用戶由于領(lǐng)域知識的不足,而搜索引擎的查詢接口又具有局限性,從而無法準(zhǔn)確的實(shí)現(xiàn)用戶的搜索意圖。?
因此,如何使用戶方便快捷的從海量的搜索結(jié)果中得到所需的信息,成為一個迫切需要解決的課題。?
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是要提供一種檢索結(jié)果更精準(zhǔn)的基于云計算的分布式搜索方法。?
為了解決以上的技術(shù)問題,本發(fā)明提供了一種基于云計算的分布式搜索方法,該方法包括以下步驟:?
步驟⑴:通過分布式的網(wǎng)絡(luò)爬蟲爬取多種格式的網(wǎng)絡(luò)文件,包括HTML、PPT、EXCEL、PDF文件;
步驟⑵:通過分布式的并行抽取解析爬蟲所爬取到的文件,抽取格式為自定義的文檔表格式,提取其中的正文、標(biāo)題、作者等相關(guān)信息;
具體是:URL+標(biāo)題+解析時間+作者+來源+正文+pr值+類別+鏈接。
其中:url是網(wǎng)頁鏈接,標(biāo)題是網(wǎng)頁標(biāo)題,解析時間是指解析當(dāng)天日期,作者是指網(wǎng)頁作者,初始值為“未知”,來源是指網(wǎng)頁文檔來源,初始值為“未知”,正文是指網(wǎng)頁去掉html標(biāo)簽后的的正文內(nèi)容,Pr值指pagerank值,默認(rèn)為1,類別是指網(wǎng)頁的分類,默認(rèn)是0,鏈接是指網(wǎng)頁指向的鏈接,通過正則表達(dá)式篩選匹配,中間用空格連接。?
步驟⑶:將抽取好的文檔內(nèi)容存入分布式的數(shù)據(jù)庫中,建立文檔表數(shù)據(jù)庫;?
步驟⑷:由文檔表數(shù)據(jù)庫建立索引表也采用并行計算技術(shù),索引表格式也為自定義的格式;
具體是:關(guān)鍵詞+/007+url+”/t”+詞頻+”/t”+pr+”/t”+type。
其中:關(guān)鍵詞是倒排索引的檢索詞;url是文檔的鏈接;詞頻是關(guān)鍵詞在該文檔中出現(xiàn)的次數(shù);Pr值是文檔pagerank值;Time是解析時間;Type是文檔分類。?
步驟⑸:將索引文件導(dǎo)入索引數(shù)據(jù)庫,為檢索器提供索引數(shù)據(jù);?
步驟⑹:對檢索結(jié)果采用PageRank以及優(yōu)化的在線排序算法。
其中,所述的步驟⑴的爬取網(wǎng)絡(luò)文件包括以下步驟:?
①設(shè)置初始爬取的網(wǎng)頁網(wǎng)址,由于網(wǎng)絡(luò)爬蟲爬取網(wǎng)頁文件是一個遞歸的過程,為了取得更好的全網(wǎng)爬取效果,初始網(wǎng)頁url一般設(shè)置為導(dǎo)航網(wǎng)址;
②從步驟①中得到一個導(dǎo)航網(wǎng)站的頁面,通過解析該頁面,得到大量網(wǎng)站首頁;
③繼續(xù)解析這些首頁可以得到更多的網(wǎng)址,再重復(fù)此過程。
其中,所述的步驟⑷中的PageRank值計算方法如下:?
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于同濟(jì)大學(xué),未經(jīng)同濟(jì)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310536651.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種海綿發(fā)泡機(jī)上的倒料裝置
- 下一篇:輪胎成型拼花模具





