[發(fā)明專利]基于專業(yè)搜索引擎的爬蟲(chóng)策略獲取圖書(shū)信息的方法無(wú)效
| 申請(qǐng)?zhí)枺?/td> | 201310535962.2 | 申請(qǐng)日: | 2013-10-31 |
| 公開(kāi)(公告)號(hào): | CN104598493A | 公開(kāi)(公告)日: | 2015-05-06 |
| 發(fā)明(設(shè)計(jì))人: | 張宇 | 申請(qǐng)(專利權(quán))人: | 大連易維立方技術(shù)有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 無(wú) | 代理人: | 無(wú) |
| 地址: | 116000 遼寧省大連市*** | 國(guó)省代碼: | 遼寧;21 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 專業(yè) 搜索引擎 爬蟲(chóng) 策略 獲取 圖書(shū) 信息 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種基于專業(yè)搜索引擎的爬蟲(chóng)策略獲取圖書(shū)信息的方法。
背景技術(shù)
隨著電子信息行業(yè)的發(fā)展電子書(shū)逐漸代替?zhèn)鹘y(tǒng)的紙質(zhì)書(shū)。電子書(shū)是指將文字、圖片、聲音、影像等訊息內(nèi)容數(shù)字化的出版物以及植入或下載數(shù)字化文字、圖片、聲音、影像等訊息內(nèi)容的集存儲(chǔ)介質(zhì)和顯示終端于一體的手持閱讀器。代表人們所閱讀的數(shù)字化出版物,從而區(qū)別于以紙張為載體的傳統(tǒng)出版物,通過(guò)數(shù)碼方式記錄在以光、電、磁為介質(zhì)的設(shè)備中,借助于特定的設(shè)備來(lái)讀取、復(fù)制、傳輸。因其具有方便性,可搜尋內(nèi)容,改變字體大小及字型,還可隨身攜帶。容量大,隨時(shí)可網(wǎng)絡(luò)下載,不受地域限制,省去大量時(shí)間。因而被人們廣泛接受。目前很多電子書(shū)都是章節(jié)性更新,因?yàn)榘鏅?quán)意識(shí)加強(qiáng),很多書(shū)籍都只在一些特定網(wǎng)站上進(jìn)行更新,這就為手機(jī)推送圖書(shū)服務(wù)帶來(lái)了很大困難。
專業(yè)搜索引擎的爬蟲(chóng)策略,專業(yè)搜索引擎網(wǎng)絡(luò)爬蟲(chóng)通常采用“最好優(yōu)先”原則訪問(wèn)WEB,即為快速、有效地獲得更多的與主題相關(guān)的頁(yè)面(簡(jiǎn)稱“回報(bào)”),每次選擇“最有價(jià)值”的鏈接進(jìn)行訪問(wèn)。由于鏈接包含于頁(yè)面之中,而通常具有較高價(jià)值的頁(yè)面包含的鏈接也具有較高的價(jià)值,因而對(duì)鏈接價(jià)值的評(píng)價(jià)有時(shí)也轉(zhuǎn)換為對(duì)頁(yè)面價(jià)值的評(píng)價(jià)。為解決上述問(wèn)題提供了技術(shù)支持。
發(fā)明內(nèi)容
本發(fā)明針對(duì)以上問(wèn)題的提出,而研制基于專業(yè)搜索引擎的爬蟲(chóng)策略獲取圖書(shū)信息的方法。本發(fā)明采用的技術(shù)方案如下:
一種基于專業(yè)搜索引擎的爬蟲(chóng)策略獲取圖書(shū)信息的方法,其特征在于包括如下步驟:
1)圖書(shū)信息收索服務(wù)器通過(guò)有線或無(wú)線的方式連接到各圖書(shū)網(wǎng)站上;
2)圖書(shū)信息收索服務(wù)器中存儲(chǔ)有對(duì)應(yīng)網(wǎng)站的數(shù)字許可證書(shū),在圖書(shū)信息收索服務(wù)器登陸到上述網(wǎng)站后,自動(dòng)匹配數(shù)字證書(shū)供網(wǎng)站校驗(yàn);
3)圖書(shū)網(wǎng)站校驗(yàn)通過(guò)后,圖書(shū)信息收索服務(wù)器通過(guò)專業(yè)搜索引擎的爬蟲(chóng)策略略對(duì)圖書(shū)網(wǎng)站中的更新圖書(shū)信息進(jìn)行搜索,一旦搜索到圖書(shū)更新信息后,圖書(shū)信息收索服務(wù)器便對(duì)更新的圖書(shū)信息進(jìn)行下載,下載的更新圖書(shū)信息經(jīng)過(guò)防火墻和數(shù)據(jù)過(guò)濾器后存入圖書(shū)信息收索服務(wù)器本地存儲(chǔ)器中;
4)圖書(shū)信息收索服務(wù)器對(duì)存儲(chǔ)如本地存儲(chǔ)器的圖書(shū)信息進(jìn)行編譯,然后發(fā)送到圖書(shū)源數(shù)據(jù)庫(kù)中。
步驟3)中:所述圖書(shū)下載方式為通過(guò)專業(yè)搜索引擎的爬蟲(chóng)策略略邊搜索邊下載。
由于采用了上述技術(shù)方案,本發(fā)明提供的方法具有:使用方便、處理速度、技術(shù)實(shí)現(xiàn)容易等特點(diǎn)。另外,該方法基于計(jì)算機(jī)系統(tǒng)的實(shí)現(xiàn),只需將該方法編譯成相應(yīng)的程序即可實(shí)現(xiàn)對(duì)現(xiàn)有計(jì)算機(jī)的升級(jí),因此其成本非常低廉適于廣泛推廣。
附圖說(shuō)明
圖1為本發(fā)明所述系統(tǒng)的結(jié)構(gòu)框圖;
圖2為本發(fā)明的實(shí)現(xiàn)流程圖。
具體實(shí)施方式
如圖1和圖2所示一種基于專業(yè)搜索引擎的爬蟲(chóng)策略獲取圖書(shū)信息的方法,其特征在于包括如下步驟:
1)圖書(shū)信息收索服務(wù)器通過(guò)有線或無(wú)線的方式連接到各圖書(shū)網(wǎng)站上;
2)圖書(shū)信息收索服務(wù)器中存儲(chǔ)有對(duì)應(yīng)網(wǎng)站的數(shù)字許可證書(shū),在圖書(shū)信息收索服務(wù)器登陸到上述網(wǎng)站后,自動(dòng)匹配數(shù)字證書(shū)供網(wǎng)站校驗(yàn);
3)圖書(shū)網(wǎng)站校驗(yàn)通過(guò)后,圖書(shū)信息收索服務(wù)器通過(guò)專業(yè)搜索引擎的爬蟲(chóng)策略略對(duì)圖書(shū)網(wǎng)站中的更新圖書(shū)信息進(jìn)行搜索,一旦搜索到圖書(shū)更新信息后,圖書(shū)信息收索服務(wù)器便對(duì)更新的圖書(shū)信息進(jìn)行下載,下載的更新圖書(shū)信息經(jīng)過(guò)防火墻和數(shù)據(jù)過(guò)濾器后存入圖書(shū)信息收索服務(wù)器本地存儲(chǔ)器中;
4)圖書(shū)信息收索服務(wù)器對(duì)存儲(chǔ)如本地存儲(chǔ)器的圖書(shū)信息進(jìn)行編譯,然后發(fā)送到圖書(shū)源數(shù)據(jù)庫(kù)中。
步驟3)中:所述圖書(shū)下載方式為通過(guò)專業(yè)搜索引擎的爬蟲(chóng)策略略邊搜索邊下載。
以上所述,僅為本發(fā)明較佳的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),根據(jù)本發(fā)明的技術(shù)方案及其發(fā)明構(gòu)思加以等同替換或改變,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于大連易維立方技術(shù)有限公司;,未經(jīng)大連易維立方技術(shù)有限公司;許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310535962.2/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種數(shù)字化專業(yè)建設(shè)評(píng)估方法
- 一種適用于小型設(shè)計(jì)院進(jìn)度控制的管理方法
- 一種行業(yè)管理及專業(yè)服務(wù)計(jì)算機(jī)系統(tǒng)
- 基于BIM的城市軌道交通車輛基地設(shè)計(jì)方法
- 一種垂直引導(dǎo)專業(yè)咨詢的方法、系統(tǒng)及電子設(shè)備
- 專業(yè)信息資源管理及交易系統(tǒng)
- 專業(yè)信息資源管理及交易系統(tǒng)
- 一種專業(yè)領(lǐng)域語(yǔ)料的中文分詞方法及裝置
- 一種學(xué)科專業(yè)評(píng)優(yōu)的方法和系統(tǒng)
- 基于BIM的城市軌道交通站臺(tái)門(mén)系統(tǒng)工程設(shè)計(jì)方法
- 內(nèi)容-索引搜索系統(tǒng)和方法
- 通過(guò)若干搜索引擎實(shí)現(xiàn)的聯(lián)合搜索
- 一種深層網(wǎng)移動(dòng)搜索方法、服務(wù)器及系統(tǒng)
- 搜索引擎的狀態(tài)獲取方法、裝置以及瀏覽器
- 一種瀏覽器中進(jìn)行網(wǎng)頁(yè)搜索的方法及裝置
- 通過(guò)若干搜索引擎實(shí)現(xiàn)的聯(lián)合搜索
- 通過(guò)搜索引擎生成定制化內(nèi)容的方法、系統(tǒng)及搜索引擎
- 通過(guò)搜索引擎?zhèn)鬟f信息的方法、系統(tǒng)及搜索引擎
- 搜索引擎的切換方法、裝置以及電子設(shè)備
- 搜索引擎處理方法、裝置、終端及存儲(chǔ)介質(zhì)
- 檢測(cè)反爬蟲(chóng)策略安全性的方法及裝置
- 一種監(jiān)控網(wǎng)絡(luò)爬蟲(chóng)的方法、裝置和系統(tǒng)
- 一種通過(guò)爬蟲(chóng)狀態(tài)機(jī)管理爬蟲(chóng)的方法及裝置
- 爬蟲(chóng)協(xié)議管理方法及裝置、爬蟲(chóng)系統(tǒng)
- 基于APP客戶端的爬蟲(chóng)及爬取方法
- 視頻業(yè)務(wù)處理方法、裝置及電子設(shè)備
- 一種爬蟲(chóng)方法、裝置、系統(tǒng)、設(shè)備及可讀存儲(chǔ)介質(zhì)
- 分布式爬蟲(chóng)系統(tǒng)架構(gòu)、爬取數(shù)據(jù)的方法和計(jì)算機(jī)設(shè)備
- 基于scrapy爬蟲(chóng)框架的數(shù)據(jù)采集系統(tǒng)及方法
- 多中心綜合網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)





