[發(fā)明專利]情報(bào)信息的搜集方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 201810128411.7 | 申請(qǐng)日: | 2018-02-08 |
| 公開(kāi)(公告)號(hào): | CN108256110A | 公開(kāi)(公告)日: | 2018-07-06 |
| 發(fā)明(設(shè)計(jì))人: | 謝志威 | 申請(qǐng)(專利權(quán))人: | 平安科技(深圳)有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30;G06F8/30 |
| 代理公司: | 廣州華進(jìn)聯(lián)合專利商標(biāo)代理有限公司 44224 | 代理人: | 李文淵 |
| 地址: | 518052 廣東省深*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 情報(bào)信息 種子資源 定位符 頁(yè)面信息 轉(zhuǎn)碼 搜集 計(jì)算機(jī)設(shè)備 存儲(chǔ)介質(zhì) 預(yù)設(shè) 篩選 資源定位符 工作效率 通用格式 爬蟲(chóng) 引擎 申請(qǐng) 保證 成功 | ||
本申請(qǐng)涉及一種情報(bào)信息的搜集方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)。所述方法包括:獲取種子資源定位符;根據(jù)已搜集資源定位符列表篩選該種子資源定位符;將篩選后的種子資源定位符加入情報(bào)信息搜集列表中;按照該情報(bào)信息搜集列表中種子資源定位符的排列順序依次選取種子資源定位符;根據(jù)選取的種子資源定位符,使用爬蟲(chóng)引擎獲取相應(yīng)的頁(yè)面信息;根據(jù)該頁(yè)面信息選取預(yù)設(shè)轉(zhuǎn)碼方案;根據(jù)該預(yù)設(shè)轉(zhuǎn)碼方案將該頁(yè)面信息轉(zhuǎn)碼,得到通用格式的情報(bào)信息。采用本方法能夠在保證將頁(yè)面信息轉(zhuǎn)碼成功的前提下,減少了將頁(yè)面信息轉(zhuǎn)碼花費(fèi)的時(shí)間,提高了搜集情報(bào)信息的工作效率。
技術(shù)領(lǐng)域
本申請(qǐng)涉及網(wǎng)絡(luò)爬蟲(chóng)技術(shù)領(lǐng)域,特別是涉及一種情報(bào)信息的搜集方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)。
背景技術(shù)
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,越來(lái)越多的信息在互聯(lián)網(wǎng)上發(fā)布和傳播。相較于傳統(tǒng)的信息發(fā)布和傳播,互聯(lián)網(wǎng)有著發(fā)布的信息量大、傳播速度快和易保存等特點(diǎn),因此在互聯(lián)網(wǎng)上發(fā)布和傳播的信息越來(lái)越多。這也導(dǎo)致了在互聯(lián)網(wǎng)變成了獲取情報(bào)信息的一種重要渠道,傳統(tǒng)技術(shù)中通常是通過(guò)爬蟲(chóng)引擎獲取發(fā)布在互聯(lián)網(wǎng)上的情報(bào)信息。
然而,隨著互聯(lián)網(wǎng)上發(fā)布的信息越來(lái)越多,建設(shè)的網(wǎng)站也越來(lái)越多,不同網(wǎng)站的網(wǎng)頁(yè)信息采取的編碼格式也不盡相同。雖然傳統(tǒng)技術(shù)中通過(guò)同時(shí)運(yùn)行多個(gè)爬蟲(chóng)引擎,以實(shí)現(xiàn)快速地獲取情報(bào)信息,但是面對(duì)種類繁多的編碼格式,在無(wú)法針對(duì)性地配置轉(zhuǎn)碼方案的情況下,也無(wú)法準(zhǔn)確地獲取情報(bào)信息,使得搜集情報(bào)信息的工作效率較低。
發(fā)明內(nèi)容
基于此,有必要針對(duì)上述技術(shù)問(wèn)題,提供一種能夠提高搜集情報(bào)信息的工作效率的情報(bào)信息的搜集方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)。
一種情報(bào)信息的搜集方法,該方法包括:
獲取種子資源定位符;
根據(jù)已搜集資源定位符列表篩選該種子資源定位符;
將篩選后的種子資源定位符加入情報(bào)信息搜集列表中;
按照該情報(bào)信息搜集列表中種子資源定位符的排列順序依次選取種子資源定位符;
根據(jù)選取的種子資源定位符,使用爬蟲(chóng)引擎獲取相應(yīng)的頁(yè)面信息;
根據(jù)該頁(yè)面信息選取預(yù)設(shè)轉(zhuǎn)碼方案;
根據(jù)該預(yù)設(shè)轉(zhuǎn)碼方案將該頁(yè)面信息轉(zhuǎn)碼,得到通用格式的情報(bào)信息。
在一個(gè)實(shí)施例中,該根據(jù)該頁(yè)面信息選取預(yù)設(shè)轉(zhuǎn)碼方案,包括:
從該頁(yè)面信息中讀取元信息;
根據(jù)該元信息獲取該頁(yè)面信息的編碼格式;
根據(jù)該頁(yè)面信息的編碼格式選取預(yù)設(shè)轉(zhuǎn)碼方案;
該根據(jù)預(yù)設(shè)轉(zhuǎn)碼方案將該頁(yè)面信息轉(zhuǎn)碼,得到通用格式的情報(bào)信息,包括:
當(dāng)檢測(cè)到該頁(yè)面信息的編碼格式?jīng)]有相應(yīng)的預(yù)設(shè)轉(zhuǎn)碼方案時(shí),則
根據(jù)該預(yù)設(shè)轉(zhuǎn)碼方案中的通用轉(zhuǎn)碼方案將該頁(yè)面信息轉(zhuǎn)碼,得到通用格式的情報(bào)信息。
在一個(gè)實(shí)施例中,該方法還包括:
當(dāng)接收到導(dǎo)出該通用格式的情報(bào)信息的指令時(shí),則
根據(jù)該指令所指定的格式選取相應(yīng)的轉(zhuǎn)碼方案;
按照選取的轉(zhuǎn)碼方案將該通用格式的情報(bào)信息轉(zhuǎn)換成該指定的格式的情報(bào)信息文檔。
在一個(gè)實(shí)施例中,該按照該情報(bào)信息搜集列表中種子資源定位符的排列順序依次選取種子資源定位符之后,該方法還包括:
根據(jù)選取的種子資源定位符計(jì)算出相應(yīng)的校驗(yàn)碼;
當(dāng)檢測(cè)到該校驗(yàn)碼的數(shù)值不在當(dāng)前的爬蟲(chóng)引擎被分配的區(qū)間內(nèi)時(shí),則
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于平安科技(深圳)有限公司,未經(jīng)平安科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810128411.7/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種科技情報(bào)信息管理系統(tǒng)
- 一種數(shù)據(jù)庫(kù)防護(hù)系統(tǒng)及方法
- 網(wǎng)絡(luò)威脅情報(bào)信息的更新方法及系統(tǒng)
- 信息共享方法、裝置、系統(tǒng)、電子設(shè)備以及存儲(chǔ)介質(zhì)
- 一種多源異構(gòu)情報(bào)數(shù)據(jù)的ELP模型的構(gòu)建方法
- 情報(bào)處理方法和情報(bào)處理系統(tǒng)
- 威脅情報(bào)的處理方法、裝置、電子裝置和存儲(chǔ)介質(zhì)
- 漏洞檢測(cè)方法、裝置、系統(tǒng)及平臺(tái)
- 一種威脅情報(bào)信息處理方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 情報(bào)處理方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- GSM網(wǎng)絡(luò)話務(wù)均衡方法
- 一種P2P系統(tǒng)及P2P系統(tǒng)中的網(wǎng)絡(luò)資源管理方法
- 資源發(fā)布方法、資源下載方法及數(shù)據(jù)校驗(yàn)系統(tǒng)
- 一種網(wǎng)絡(luò)電視直播的方法、裝置和系統(tǒng)
- 音樂(lè)資源個(gè)性化推薦方法及系統(tǒng)
- 一種離線下載資源的系統(tǒng)、方法及裝置
- 一種水稻種質(zhì)資源長(zhǎng)期保存的方法
- 一種物聯(lián)網(wǎng)中霧計(jì)算的計(jì)算資源和頻譜資源分配方法
- 重復(fù)利用種子卡的方法及裝置
- 數(shù)據(jù)處理方法、裝置、電子設(shè)備和介質(zhì)
- 通過(guò)消息傳送分享網(wǎng)絡(luò)饋源
- 惡意網(wǎng)址庫(kù)的處理方法及裝置
- 統(tǒng)一資源定位符優(yōu)化審計(jì)的方法、裝置和網(wǎng)絡(luò)側(cè)設(shè)備
- 統(tǒng)一資源定位符的選擇方法和統(tǒng)一資源定位符的選擇裝置
- 一種基于網(wǎng)頁(yè)哈希值掃描漏洞的方法、裝置及電子設(shè)備
- 一種文本選擇方法和設(shè)備
- 一種定位方法、裝置及移動(dòng)終端
- 操作漏洞的檢測(cè)方法、裝置、存儲(chǔ)介質(zhì)及電子裝置
- 瀏覽器內(nèi)核管理的方法、系統(tǒng)和存儲(chǔ)介質(zhì)
- 網(wǎng)站應(yīng)用跳轉(zhuǎn)與視圖更新的方法及設(shè)備
- 一種用于確定目標(biāo)頁(yè)面的頁(yè)面類型信息的方法和設(shè)備
- 一種Web App加載方法及裝置
- 獲取網(wǎng)頁(yè)頁(yè)面數(shù)據(jù)的方法及裝置
- 頁(yè)面測(cè)試方法及裝置
- 一種頁(yè)面跳轉(zhuǎn)方法和裝置、存儲(chǔ)介質(zhì)及終端
- 頁(yè)面信息校驗(yàn)方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 物品信息顯示方法、裝置、電子設(shè)備和計(jì)算機(jī)可讀介質(zhì)
- 信息顯示方法、信息顯示裝置、終端及存儲(chǔ)介質(zhì)
- 頁(yè)面的處理方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種頁(yè)面構(gòu)建方法、裝置及設(shè)備





