[發明專利]一種基于網頁切分爬取的網絡地址置信度評估方法有效
| 申請號: | 201810397206.0 | 申請日: | 2018-04-28 |
| 公開(公告)號: | CN108647263B | 公開(公告)日: | 2022-04-12 |
| 發明(設計)人: | 朱全銀;潘舒新;胡榮林;李翔;周泓;瞿學新 | 申請(專利權)人: | 淮陰工學院 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/955;G06F16/906;G06K9/62 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 梁耀文 |
| 地址: | 223003 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 網頁 切分 網絡地址 置信 評估 方法 | ||
1.一種基于網頁切分爬取的網絡地址置信度評估方法,其特征在于,具體步驟如下:
(1)先對網頁鏈接進行分類,然后對已分類的網頁鏈接按照“/”和“.”進行切分得到子網頁鏈接,爬取子網頁鏈接的網頁信息,采用卷積神經網絡對子網頁鏈接進行分類,將子網頁鏈接分類準確率與原始網頁分類準確率相減得出網頁分類差值集;
(2)將步驟(1)中網頁分類差值低于0.5的數據置零,分別計算按照“/”和“.”切分的網頁準確率的平均數,然后得到網絡地址置信度權重F1和F2,將計算后的F1和F2帶入網絡地址置信度算法;
(3)統計待爬取的網頁鏈接中“/”和“.”的數量,依次采用腳本訪問待爬取網頁,分別統計能夠正常訪問網頁時“/”和“.”的數量,將處理后的網頁鏈接放入已分類網頁地址集,重新計算F1和F2的值,最后使用網絡地址置信度算法計算待爬取網頁的網絡地址置信度。
2.根據權利要求1所述的一種基于網頁切分爬取的網絡地址置信度評估方法,其特征在于,所述步驟(1)中得到網頁分類差值集的具體步驟如下:
(1.1)定義網頁地址集、網頁分類集;
(1.2)對網頁地址集中的URL按照“/”進行切分,使用卷積神經網絡計算切分后的分類準確率;
(1.3)對網頁地址集中的URL按照“.”進行切分,使用卷積神經網絡計算切分后的分類準確率;
(1.4)定義原始網頁準確率為1,將步驟(1.2)和步驟(1.3)得到的分類準確率與原始網頁準確率相減,得到網頁分類差值集。
3.根據權利要求1所述的一種基于網頁切分爬取的網絡地址置信度評估方法,其特征在于,所述步驟(2)中得到網絡地址置信度算法的具體步驟如下:
(2.1)定義一級、二級網頁信息準確率差集、一級、二級網頁權重;
(2.2)將一級網頁信息準確率集和二級網頁信息準確率集中小于0.5的數值修改為0;
(2.3)計算一級網頁權重;
(2.4)計算二級網頁權重;
(2.5)得到網絡地址置信度算法公式。
4.根據權利要求3所述的一種基于網頁切分爬取的網絡地址置信度評估方法,其特征在于,所述步驟(3)中得到待爬取網頁的網絡地址置信度的具體步驟如下:
(3.1)定義待爬取網頁地址,統計地址中“/”和“.”的數量;
(3.2)使用腳本爬取待爬取網頁地址的內容;
(3.3)在原始網頁無法爬去的情況下,依次按照“/”、“.”對原網頁進行切分后,爬取相關網頁內容,并統計切分的次數;
(3.4)正常獲取到網頁內容后,將處理后的網頁URL加入已分類網頁鏈接集,重新對一級網頁權重和二級網頁權重進行訓練;
(3.5)按照步驟(2.5)得到的公式進行計算,得到待爬取網頁網絡地址置信度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于淮陰工學院,未經淮陰工學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810397206.0/1.html,轉載請聲明來源鉆瓜專利網。





