[發(fā)明專(zhuān)利]一種網(wǎng)絡(luò)信息采集方法及裝置在審
| 申請(qǐng)?zhí)枺?/td> | 201711308223.4 | 申請(qǐng)日: | 2017-12-11 |
| 公開(kāi)(公告)號(hào): | CN110020081A | 公開(kāi)(公告)日: | 2019-07-16 |
| 發(fā)明(設(shè)計(jì))人: | 王雅文 | 申請(qǐng)(專(zhuān)利權(quán))人: | 鎮(zhèn)江共遠(yuǎn)軟件開(kāi)發(fā)有限公司 |
| 主分類(lèi)號(hào): | G06F16/953 | 分類(lèi)號(hào): | G06F16/953;G06F16/955 |
| 代理公司: | 暫無(wú)信息 | 代理人: | 暫無(wú)信息 |
| 地址: | 212000 江蘇*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 網(wǎng)絡(luò)信息 抓取 屬性關(guān)系 采集 網(wǎng)絡(luò)信息采集 目標(biāo)網(wǎng)站 子URL 統(tǒng)一資源定位符 | ||
本發(fā)明提供了一種網(wǎng)絡(luò)信息采集方法及裝置,方法包括:確定待采集網(wǎng)絡(luò)信息的目標(biāo)網(wǎng)站;獲取對(duì)應(yīng)所述目標(biāo)網(wǎng)站的統(tǒng)一資源定位符URL;針對(duì)每一個(gè)URL,抓取對(duì)應(yīng)的網(wǎng)絡(luò)信息,并獲取每一個(gè)URL與其子URL的屬性關(guān)系;根據(jù)抓取到的網(wǎng)絡(luò)信息和獲取的所述屬性關(guān)系,確定是否存在漏采信息;在確定存在漏采信息時(shí),對(duì)漏采信息進(jìn)行重新采集。根據(jù)本方案,通過(guò)在抓取網(wǎng)絡(luò)信息的過(guò)程中,獲取每一個(gè)URL與其子URL的屬性關(guān)系,可以根據(jù)抓取到的網(wǎng)絡(luò)信息和屬性關(guān)系來(lái)確定是否存在漏采信息,如果存在,可以對(duì)漏采信息進(jìn)行重新采集,從而可以采集到完整的網(wǎng)絡(luò)信息。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,特別涉及一種網(wǎng)絡(luò)信息采集方法及裝置。
背景技術(shù)
隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,互聯(lián)網(wǎng)在社會(huì)和生活中的地位越來(lái)越顯著。尤其是互聯(lián)網(wǎng)作為大量信息的載體,如何有效地采集這些信息成為一個(gè)巨大的挑戰(zhàn)。
目前,可以通過(guò)網(wǎng)絡(luò)爬蟲(chóng)的方式來(lái)實(shí)現(xiàn)網(wǎng)頁(yè)信息的采集,通過(guò)抓取既定目標(biāo),有選擇的訪問(wèn)互聯(lián)網(wǎng)上的網(wǎng)頁(yè)和相關(guān)鏈接,抓取需要的網(wǎng)頁(yè)信息。
然而,網(wǎng)絡(luò)爬蟲(chóng)方式在抓取網(wǎng)頁(yè)信息的過(guò)程中,經(jīng)常存在信息漏采的問(wèn)題,而信息漏采可能會(huì)對(duì)信息使用造成較大影響,因此,如何采集完整的網(wǎng)絡(luò)信息,,成為急需解決的問(wèn)題。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供了一種網(wǎng)絡(luò)信息采集方法及裝置,以采集完成的網(wǎng)絡(luò)信息。
第一方面,本發(fā)明實(shí)施例提供了一種網(wǎng)絡(luò)信息采集方法,包括:
確定待采集網(wǎng)絡(luò)信息的目標(biāo)網(wǎng)站;
獲取對(duì)應(yīng)所述目標(biāo)網(wǎng)站的統(tǒng)一資源定位符URL;
針對(duì)每一個(gè)URL,抓取對(duì)應(yīng)的網(wǎng)絡(luò)信息,并獲取每一個(gè)URL與其子URL的屬性關(guān)系;
根據(jù)抓取到的網(wǎng)絡(luò)信息和獲取的所述屬性關(guān)系,確定是否存在漏采信息;
在確定存在漏采信息時(shí),對(duì)漏采信息進(jìn)行重新采集。
優(yōu)選地,所述獲取對(duì)應(yīng)所述目標(biāo)網(wǎng)站的統(tǒng)一資源定位符URL,包括:
確定所述目標(biāo)網(wǎng)站的入口URL;
根據(jù)所述入口URL,確定對(duì)應(yīng)所述目標(biāo)網(wǎng)站的URL抽取規(guī)則;
利用所述URL抽取規(guī)則,執(zhí)行如下步驟:
S0:將所述入口URL作為第一URL,執(zhí)行S1;
S1:抽取與第一URL相關(guān)的URL,將抽取到的URL作為第一URL,并執(zhí)行S1,直到未抽取到與第一URL相關(guān)的URL。
優(yōu)選地,
每一個(gè)目標(biāo)URL與其子URL的屬性關(guān)系包括:目標(biāo)URL、目標(biāo)URL對(duì)應(yīng)的各個(gè)子URL、以及每一個(gè)子URL對(duì)應(yīng)的深度、目標(biāo)URL的類(lèi)型和該目標(biāo)URL對(duì)應(yīng)的每一個(gè)子URL的類(lèi)型;
所述類(lèi)型至少包括:導(dǎo)航頁(yè)、列表頁(yè)和詳情頁(yè)中的至少一種。
優(yōu)選地,所述根據(jù)抓取到的網(wǎng)絡(luò)信息和獲取的所述屬性關(guān)系,確定是否存在漏采信息,包括:
根據(jù)所述屬性關(guān)系,確定每一個(gè)當(dāng)前URL對(duì)應(yīng)的子URL的數(shù)量;
并根據(jù)抓取到的網(wǎng)絡(luò)信息,確定每一個(gè)當(dāng)前URL對(duì)應(yīng)的抓取數(shù)量;
針對(duì)每一個(gè)第二URL,在確定該第二URL對(duì)應(yīng)的子URL的數(shù)量和抓取數(shù)量之間的差值大于0時(shí),則確定對(duì)該第二URL進(jìn)行網(wǎng)絡(luò)信息的抓取時(shí),存在漏采信息。
優(yōu)選地,在確定針對(duì)第二URL存在漏采信息時(shí),所述對(duì)漏采信息進(jìn)行重新采集,包括:
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于鎮(zhèn)江共遠(yuǎn)軟件開(kāi)發(fā)有限公司,未經(jīng)鎮(zhèn)江共遠(yuǎn)軟件開(kāi)發(fā)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711308223.4/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 上一篇:信息處理方法和系統(tǒng)
- 下一篇:一種搜索方法及裝置
- 網(wǎng)絡(luò)信息提供方法和裝置
- 基于終端和網(wǎng)絡(luò)信息融合的無(wú)線網(wǎng)絡(luò)切換方法
- 網(wǎng)絡(luò)信息投放方法和系統(tǒng)
- 網(wǎng)絡(luò)信息瀏覽方法及網(wǎng)絡(luò)信息瀏覽裝置
- 網(wǎng)絡(luò)信息通信方法及網(wǎng)絡(luò)信息瀏覽裝置
- 網(wǎng)絡(luò)信息推送方法及網(wǎng)絡(luò)信息推送裝置
- 一種網(wǎng)絡(luò)信息的共享系統(tǒng)
- 專(zhuān)線網(wǎng)絡(luò)搭建方法及系統(tǒng)
- 一種網(wǎng)絡(luò)切片的處理方法及接入網(wǎng)網(wǎng)元
- 網(wǎng)絡(luò)信息顯示方法及裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種配置文件的處理方法及裝置
- 一種分布式系統(tǒng)異常檢測(cè)方法
- 數(shù)據(jù)關(guān)系的處理方法、裝置及移動(dòng)通訊終端
- 實(shí)體與屬性關(guān)系的動(dòng)態(tài)抽取方法、服務(wù)器及可讀存儲(chǔ)介質(zhì)
- 流式事件特征匹配方法及裝置
- 用戶(hù)數(shù)量的查詢(xún)計(jì)算方法、裝置、電子設(shè)備、及存儲(chǔ)介質(zhì)
- 一種知識(shí)圖譜構(gòu)建方法及相關(guān)裝置
- 關(guān)系引導(dǎo)的行人屬性識(shí)別方法
- 識(shí)別實(shí)體屬性關(guān)系
- 一種基于圖注意力網(wǎng)絡(luò)的服裝屬性識(shí)別方法與系統(tǒng)





