[發明專利]一種互聯網信息發掘方法有效
| 申請號: | 201711463752.1 | 申請日: | 2017-12-28 |
| 公開(公告)號: | CN108319651B | 公開(公告)日: | 2022-02-15 |
| 發明(設計)人: | 沈文凱;李廣兵;汪洋 | 申請(專利權)人: | 南京烽火星空通信發展有限公司 |
| 主分類號: | G06F16/958 | 分類號: | G06F16/958;G06F16/955 |
| 代理公司: | 南京經緯專利商標代理有限公司 32200 | 代理人: | 楊海軍 |
| 地址: | 210019 江蘇省南京市建*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 互聯網 信息 發掘 方法 | ||
1.一種互聯網信息發掘方法,其特征在于,所述方法包括如下步驟:
一、針對互聯網站點,歸納其發布網頁的規律;
二、針對存在網頁發布規律、且發布規律可預測的站點,生成相應的發掘算法,計算當前時刻網頁URL生成規則中動態部分的最新值,并輸出待采集的網頁URL集合;
三、發布網頁URL生成規則,規則包含靜態部分與動態部分;發掘行為邏輯,通過網頁URL生成規則輸出有效的網頁URL;
四、采集已生成發掘算法的站點數據,以發掘算法計算生成對應站點的新發布網頁URL;
五、網頁信息采集程序以發掘算法生成的新發布網頁URL為輸入進行數據采集。
2.如權利要求1所述的一種互聯網信息發掘方法,其特征在于,所述步驟二具體包括如下步驟:
201、讀取URL生成規則以及該規則當前動態部分數值N;
202、估算當前時刻動態部分預估值M;
203、生成預估值M后,按URL生成規則生成預估URL;
204、請求預估URL,通過預估URL請求結果判斷預估值M是否合理;
如果請求成功,預估URL存在,則認為預估值M合理;
如果請求不成功,預估URL不存在,則認為預估值M不合理,返回步驟202重新調整預估值M;
205、確定預估值M后,按URL生成規則生成N到M區間內所有URL,并將其輸出作為采集程序的輸入;
206、以本次預估值M作為該URL生成規則動態部分數值,供下次處理使用。
3.如權利要求2所述的一種互聯網信息發掘方法,其特征在于:數值上MN,且M以序列方式遞增,包括按日期遞增或者按自然數遞增。
4.如權利要求3所述的一種互聯網信息發掘方法,其特征在于:所述預估值M在按自然數遞增的情況下,其增長的跨度為固定值或在某一區間內的隨機值。
5.如權利要求1所述的一種互聯網信息發掘方法,其特征在于,所述步驟三中,網頁URL生成規則的算法處理流程包括:
301、選擇需要采集的站點,并收集該站點的超鏈接數據;
302、對收集到的超鏈接數據進行分類,按照URL格式進行模式匹配分類;
303、計算每個模式分類下的URL靜態成分和動態成分;
304、分析每個模式分類下的動態成分是否可預測,即動態成分是否在數學上存在時間連續性:若動態部分按時間連續變化或按自然數連續變化,則認為可預測;若動態部分在數學上呈離散變化,則認為不可預測;
305、輸出網頁URL生成規則。
6.如權利要求5所述的一種互聯網信息發掘方法,其特征在于:步驟301中,收集該站點的超鏈接數據的方式為廣度優先搜索算法,所述超鏈接數據的數量大于等于1000條。
7.如權利要求5所述的一種互聯網信息發掘方法,其特征在于:步驟305中,所述網頁URL生成規則以正則表達式方式輸出,一個站點存在復數個不同的網頁URL生成規則。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京烽火星空通信發展有限公司,未經南京烽火星空通信發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711463752.1/1.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





