[發明專利]一種基于網頁切分爬取的網絡地址置信度評估方法有效
| 申請號: | 201810397206.0 | 申請日: | 2018-04-28 |
| 公開(公告)號: | CN108647263B | 公開(公告)日: | 2022-04-12 |
| 發明(設計)人: | 朱全銀;潘舒新;胡榮林;李翔;周泓;瞿學新 | 申請(專利權)人: | 淮陰工學院 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/955;G06F16/906;G06K9/62 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 梁耀文 |
| 地址: | 223003 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 網頁 切分 網絡地址 置信 評估 方法 | ||
本專利公開發明了一種基于網頁切分爬取的網絡地址置信度評估方法,首先對已分類的網頁鏈接進行切分,使用腳本爬取切分后的網頁內容,采用卷積神經網絡對網頁內容進行分類,將切分后的網頁分類準確率與原始網頁分類準確率相減,得到網頁分類差值集,再通過計算不同切分網頁的權重,得到網絡地址置信度算法公式,接著使用腳本爬取待分類網頁鏈接,并計算切分的數量,將置信度大于一定閾值的網頁鏈接放入已分類網頁鏈接集中繼續優化算法公式中的權重,最后使用網絡地址置信度算法得出爬取網頁的置信度。本發明方法有效的評估了在對網頁進行切分爬取時,待爬取的網頁與原始網頁內容的信息差異,提高了網頁爬取的效率。
技術領域
本發明屬于網頁信息內容完整性評估技術領域,特別涉及一種基于網頁切分爬取的網絡地址置信度評估方法。
背景技術
爬取網頁信息并對網頁進行分類對實現人員的行為習慣分析有著重要的作用和意義。傳統的網頁爬取技術,往往因為頁面更新或者網站停止運營,導致無法全面的得到原始網頁的信息,已經不能滿足社會信息化發展的需求。近年來,針對網頁內容更新頻繁,研究者提供了相應的解決方法,如切分網頁、手工標注等。
朱全銀、潘舒新等人已有的研究基礎包括:李翔,朱全銀.聯合聚類和評分矩陣共享的協同過濾推薦[J].計算機科學與探索,2014,8(6):751-759;Quanyin Zhu,SunqunCao.A Novel Classifier-independent Feature Selection Algorithm for ImbalancedDatasets.2009,p:77-82;Quanyin Zhu,Yunyang Yan,Jin Ding,Jin Qian.The CaseStudy for Price Extracting of Mobile Phone Sell Online.2011,p:282-285;ZhuQuanyin,Pan Lu,Yin Yonghua LiXiang.Influence on Normalization and MagnitudeNormalization for PriceForecasting of Agricultural Products.InformationTechnology Journal(ITJ).2013.Vol.12(15):3046-3057;Quanyin Zhu,Jin Ding,Yonghua Yin,Pei Zhou.A Hybrid Approach for New Products Discovery of CellPhone Based on Web Mining.Journal of Information and Computational Science(JICS).2012,Vol.9(16):5039-5046;Pan S,Fan J,Yu S,et al.A Method of BehaviorEvaluation Based on Web Browsing Information.Smart Grid and ElectricalAutomation(ICSGEA),2017 International Conference on.IEEE,2017:697-700.朱全銀、潘舒新等人申請、公開與授權的相關專利:朱全銀,尹永華,嚴云楊,曹蘇群等,一種基于神經網絡的多品種商品價格預測的數據預處理方法.中國專利:ZL 2012 1 0325368.6,2016.06.08;朱全銀,胡蓉靜,何蘇群,周培等.一種基于線性插補與自適應滑動窗口的商品價格預測方法.中國專利:ZL 2011 1 0423015.5,2015.07.01;朱全銀,曹蘇群,嚴云洋,胡蓉靜等,一種基于二分數據修補與擾亂因子的商品價格預測方法.中國專利:ZL 2011 10422274.6,2015.07.01;朱全銀,辛誠,李翔,潘舒新等,一種基于K-means和LDA雙向驗證的網絡行為習慣聚類方法.中國專利公開號:CN106202480A,2016.12.07;朱全銀,辛誠,劉斌,潘舒新等,一種基于分類語料庫-關鍵詞詞頻-記錄關聯的網絡行為習慣量化方法.中國專利公開號CN106202498A,2016.12.07;朱全銀,潘舒新,李翔,賈笑穎等,一種多維度的網頁瀏覽行為評估方法.中國專利公開號:CN106886577A,2017.06.23。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于淮陰工學院,未經淮陰工學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810397206.0/2.html,轉載請聲明來源鉆瓜專利網。





