[發(fā)明專利]一種可擴(kuò)展的新聞網(wǎng)站通用爬蟲方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202010617010.5 | 申請日: | 2020-07-01 |
| 公開(公告)號: | CN111723265A | 公開(公告)日: | 2020-09-29 |
| 發(fā)明(設(shè)計(jì))人: | 趙粉玉;邱彥林;陳尚武 | 申請(專利權(quán))人: | 杭州敘簡科技股份有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951 |
| 代理公司: | 杭州浙言專利代理事務(wù)所(普通合伙) 33370 | 代理人: | 易朝暉 |
| 地址: | 311121 浙江省杭州市余杭區(qū)*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 擴(kuò)展 新聞 網(wǎng)站 通用 爬蟲 方法 系統(tǒng) | ||
1.一種可擴(kuò)展的新聞網(wǎng)站通用爬蟲方法,其特征在于,包括:
添加需要爬取的網(wǎng)站url以及相關(guān)配置;
獲取需要爬取的網(wǎng)站以及相關(guān)配置;
對網(wǎng)址使用通用解析規(guī)則解析并返回解析效果,如果解析錯(cuò)誤,則加入網(wǎng)站相應(yīng)的xpath解析規(guī)則;
對加入xpath解析規(guī)則的網(wǎng)站使用配置解析,其它網(wǎng)站使用默認(rèn)解析規(guī)則;
對解析結(jié)果進(jìn)行存儲(chǔ)。
2.根據(jù)權(quán)利要求1所述的一種可擴(kuò)展的新聞網(wǎng)站通用爬蟲方法,其特征在于,在所述添加需要爬取的網(wǎng)站url以及相關(guān)配置之前包括:
判斷各網(wǎng)站url是否在指紋文件,若無則添加指紋文件。
3.根據(jù)權(quán)利要求1所述的一種可擴(kuò)展的新聞網(wǎng)站通用爬蟲方法,其特征在于,所述對網(wǎng)址使用通用解析規(guī)則解析包括:
使用scrapy框架下載網(wǎng)頁源碼;
去除網(wǎng)站中的腳本以及樣式;
構(gòu)建dom樹,計(jì)算每個(gè)節(jié)點(diǎn)要求的變量;
根據(jù)c計(jì)算每個(gè)節(jié)點(diǎn)的分?jǐn)?shù),找出分?jǐn)?shù)最大的節(jié)點(diǎn),提取網(wǎng)頁正文,并格式化輸出。
4.根據(jù)權(quán)利要求3所述的一種可擴(kuò)展的新聞網(wǎng)站通用爬蟲方法,其特征在于,所述構(gòu)建dom樹,計(jì)算每個(gè)節(jié)點(diǎn)要求的變量包括:
計(jì)算該節(jié)點(diǎn)的文本密度;
計(jì)算符號密度為文字?jǐn)?shù)量與符號數(shù)量的比值;
計(jì)算Dom樹標(biāo)簽分?jǐn)?shù)score,score越大,則該結(jié)點(diǎn)屬于正文內(nèi)容的可能性較大。
5.根據(jù)權(quán)利要求4所述的一種可擴(kuò)展的新聞網(wǎng)站通用爬蟲方法,其特征在于,所述計(jì)算該節(jié)點(diǎn)的文本密度包括:
設(shè)定i 為 Dom 樹的一個(gè)結(jié)點(diǎn),則該節(jié)點(diǎn)的文本密度 TDi 為:
,
其中,Ti 表示結(jié)點(diǎn) i的字符串字?jǐn)?shù);LTi 表示結(jié)點(diǎn) i的帶鏈接的字符串字?jǐn)?shù);TGi 表示結(jié)點(diǎn) i的標(biāo)簽數(shù);LTGi 表示結(jié)點(diǎn) i帶鏈接的標(biāo)簽數(shù)。
6.根據(jù)權(quán)利要求4所述的一種可擴(kuò)展的新聞網(wǎng)站通用爬蟲方法,其特征在于,所述計(jì)算符號密度為文字?jǐn)?shù)量與符號數(shù)量的比值的計(jì)算公式為:
,
其中,Ti 表示結(jié)點(diǎn) i的字符串字?jǐn)?shù); LTi 表示結(jié)點(diǎn) i的帶鏈接的字符串字?jǐn)?shù);Sbi 表示符號數(shù)量。
7.根據(jù)權(quán)利要求4所述的一種可擴(kuò)展的新聞網(wǎng)站通用爬蟲方法,其特征在于,所述計(jì)算Dom樹標(biāo)簽分?jǐn)?shù)score包括:
建立模型為:
score = log(SD)*NDi* log10(PNumi + 2)* log(SbDi),
其中,SD表示節(jié)點(diǎn)文本密度的標(biāo)準(zhǔn)差; NDi表示節(jié)點(diǎn)i的文本密度; PNumi 表示節(jié)點(diǎn) i的 p標(biāo)簽數(shù)。
8.根據(jù)權(quán)利要求1所述的一種可擴(kuò)展的新聞網(wǎng)站通用爬蟲方法,其特征在于,所述默認(rèn)解析規(guī)則包括:
使用scrapy框架獲取網(wǎng)站某模塊源碼;
移除網(wǎng)頁中的無用的部分;
提取剩余內(nèi)容中所有a標(biāo)簽下href鏈接和標(biāo)簽文字;
過濾標(biāo)簽文字字?jǐn)?shù)小于某一閾值的href鏈接;
去除長度不一致的鏈接。
9.根據(jù)權(quán)利要求8所述的一種可擴(kuò)展的新聞網(wǎng)站通用爬蟲方法,其特征在于,所述使用scrapy框架獲取網(wǎng)站某模塊源碼包括:
使用Scrapy框架中提供的url指紋對爬取的網(wǎng)站url進(jìn)行過濾,每次爬取前將該網(wǎng)站url轉(zhuǎn)換為url指紋,在指紋文件中比對,若出現(xiàn)重復(fù)指紋,則跳過該頁面。
10.一種可擴(kuò)展的新聞網(wǎng)站爬蟲系統(tǒng),其特征在于,包括:
處理器;以及
存儲(chǔ)器,用于存儲(chǔ)所述處理器的可執(zhí)行指令;
其中,所述處理器配置為經(jīng)由執(zhí)行所述可執(zhí)行指令來執(zhí)行權(quán)利要求1至9任一項(xiàng)所述一種可擴(kuò)展的新聞網(wǎng)站通用爬蟲方法的步驟。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州敘簡科技股份有限公司,未經(jīng)杭州敘簡科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010617010.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 與HTTP網(wǎng)站關(guān)聯(lián)的WAP網(wǎng)站
- 基于網(wǎng)站指紋推送白名單的方法及系統(tǒng)
- 網(wǎng)站漏洞檢測方法和系統(tǒng)
- 一種網(wǎng)站建立方法、裝置及計(jì)算設(shè)備
- 一種網(wǎng)站識別方法及裝置
- 網(wǎng)站風(fēng)險(xiǎn)評估方法及裝置
- 網(wǎng)站版權(quán)時(shí)間的管理方法、裝置、存儲(chǔ)介質(zhì)及設(shè)備
- 一種網(wǎng)站開發(fā)系統(tǒng)及方法
- 一種基于網(wǎng)站地圖的指紋識別方法
- 網(wǎng)站應(yīng)用框架指紋識別的方法、設(shè)備、裝置及介質(zhì)





