[發(fā)明專利]一種骨干網(wǎng)鏈路中用戶上網(wǎng)行為數(shù)據(jù)采集方法和系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201010232794.6 | 申請(qǐng)日: | 2010-07-15 |
| 公開(公告)號(hào): | CN101909079A | 公開(公告)日: | 2010-12-08 |
| 發(fā)明(設(shè)計(jì))人: | 張雁冰;胡平;劉軍;王強(qiáng) | 申請(qǐng)(專利權(quán))人: | 北京邁朗世訊科技有限公司 |
| 主分類號(hào): | H04L29/08 | 分類號(hào): | H04L29/08;H04L29/06;G06F17/30 |
| 代理公司: | 中國國際貿(mào)易促進(jìn)委員會(huì)專利商標(biāo)事務(wù)所 11038 | 代理人: | 孫寶海 |
| 地址: | 100080 北京市海*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 骨干 網(wǎng)鏈路中 用戶 上網(wǎng) 行為 數(shù)據(jù) 采集 方法 系統(tǒng) | ||
1.一種骨干網(wǎng)鏈路中用戶上網(wǎng)行為數(shù)據(jù)采集方法,其特征在于,包括:
捕獲骨干網(wǎng)鏈路中包含超文本傳輸協(xié)議HTTP請(qǐng)求報(bào)文的數(shù)據(jù)包
采用并行處理從數(shù)據(jù)包中根據(jù)HTTP協(xié)議解析提取用戶訪問的網(wǎng)站頁面統(tǒng)一資源定位符URL、以及反映用戶上網(wǎng)行為的HTTP字段信息;
根據(jù)URL模式特征樹過網(wǎng)站頁面URL進(jìn)行過濾,獲得需要抓取頁面內(nèi)容的網(wǎng)站頁面URL;
以異步方式抓取所述過濾后的網(wǎng)站頁面URL的頁面內(nèi)容。
2.根據(jù)權(quán)利要求1所述的用戶上網(wǎng)行為數(shù)據(jù)采集方法,其特征在于,還包括:
采用基于狀態(tài)機(jī)的多模匹配方法將網(wǎng)站頁面URL與過濾規(guī)則進(jìn)行比較,以過濾掉不需要抓取的網(wǎng)站頁面URL。
3.根據(jù)權(quán)利要求1或2所述的用戶上網(wǎng)行為數(shù)據(jù)采集方法,其特征在于,所述根據(jù)URL模式特征樹對(duì)網(wǎng)站頁面URL進(jìn)行過濾的步驟包括:
將網(wǎng)站頁面URL與非主頁面URL模式特征樹索引表和已抓取過的URL模式特征樹索引表進(jìn)行比較,過濾掉不需要抓取的網(wǎng)站頁面URL。
4.根據(jù)權(quán)利要1所述的用戶上網(wǎng)行為數(shù)據(jù)采集方法,其特征在于,還包括:
將URL頁面內(nèi)容的可獲取狀態(tài)實(shí)時(shí)動(dòng)態(tài)地反饋回URL模式特征樹。
5.根據(jù)權(quán)利要求1所述的用戶上網(wǎng)行為數(shù)據(jù)采集方法,其特征在于,
所述捕獲骨干網(wǎng)鏈路中包含HTTP請(qǐng)求報(bào)文的數(shù)據(jù)包的步驟包括:
在高速骨干網(wǎng)上采用軟件輪詢方式從網(wǎng)卡設(shè)備中獲得高速串行網(wǎng)絡(luò)鏈路幀數(shù)據(jù)流;
以直接內(nèi)存訪問方式將高速串行網(wǎng)絡(luò)鏈路幀數(shù)據(jù)存儲(chǔ)到多個(gè)緩沖區(qū)中;
和/或
所述從數(shù)據(jù)包中根據(jù)HTTP協(xié)議解析提取用戶訪問的網(wǎng)站頁面URL的步驟包括:
采用多線程并行處理方式從數(shù)據(jù)包中根據(jù)HTTP協(xié)議解析提取用戶訪問的網(wǎng)站頁面URL。
6.根據(jù)權(quán)利要求1所述的用戶上網(wǎng)行為數(shù)據(jù)采集方法,其特征在于,還包括:
從數(shù)據(jù)包中根據(jù)TCP/IP協(xié)議解析提取用戶的IP地址;
根據(jù)用戶IP地址查詢數(shù)據(jù)庫中用戶IP-UserID映射服務(wù),以獲得用戶的用戶標(biāo)識(shí)。
7.一種用戶上網(wǎng)行為數(shù)據(jù)采集系統(tǒng),其特征在于,包括:
數(shù)據(jù)包捕獲設(shè)備,用于捕獲骨干網(wǎng)鏈路中包含HTTP請(qǐng)求報(bào)文的數(shù)據(jù)包;
統(tǒng)一資源定位符URL提取設(shè)備,用于從數(shù)據(jù)包中根據(jù)超文本傳輸協(xié)議HTTP協(xié)議解析提取用戶訪問的網(wǎng)站頁面URL、以及反映用戶上網(wǎng)行為的HTTP字段信息;
URL過濾設(shè)備,用于根據(jù)URL模式特征樹對(duì)提取的網(wǎng)站頁面URL進(jìn)行過濾,獲得需要抓取面內(nèi)容的網(wǎng)站頁面URL;
頁面內(nèi)容抓取設(shè)備,用于準(zhǔn)實(shí)時(shí)地抓取所述過濾后的網(wǎng)站頁面URL的頁面內(nèi)容。
8.根據(jù)權(quán)利要求7所述的用戶上網(wǎng)行為數(shù)據(jù)采集系統(tǒng),其特征在于,還包括:
經(jīng)驗(yàn)規(guī)則過濾設(shè)備,用于采用基于狀態(tài)機(jī)的多模匹配方法將網(wǎng)站頁面URL與經(jīng)驗(yàn)規(guī)則表中的過濾規(guī)則進(jìn)行比較,以過濾掉不需要抓取的網(wǎng)站頁面URL。
9.根據(jù)權(quán)利要求7或8所述的用戶上網(wǎng)行為數(shù)據(jù)采集系統(tǒng),其特征在于,所述URL過濾設(shè)備將網(wǎng)站頁面URL與非主頁面URL模式特征樹和已抓取過的URL模式特征樹索引表做比較,過濾掉不需要抓取的網(wǎng)站頁面URL。
10.根據(jù)權(quán)利要求7所述的用戶上網(wǎng)行為數(shù)據(jù)采集系統(tǒng),其特征在于,還包括:
特征樹反饋設(shè)備,用于將URL頁面內(nèi)容的可獲取狀態(tài)實(shí)時(shí)動(dòng)態(tài)地反饋到URL模式特征樹。
11.根據(jù)權(quán)利要求7所述的用戶上網(wǎng)行為數(shù)據(jù)采集系統(tǒng),其特征在于,
所述數(shù)據(jù)包捕獲設(shè)備在高速骨干網(wǎng)上采用軟件輪詢方式從網(wǎng)卡設(shè)備中獲得高速串行網(wǎng)絡(luò)鏈路幀數(shù)據(jù)流,以直接內(nèi)存訪問方式將高速串行網(wǎng)絡(luò)鏈路幀數(shù)據(jù)存儲(chǔ)到多個(gè)緩沖區(qū)中;
和/或
URL提取設(shè)備采用多線程并行處理方式從數(shù)據(jù)包中根據(jù)HTTP協(xié)議解析提取用戶訪問的網(wǎng)站頁面URL。
12.根據(jù)權(quán)利要求7所述的用戶上網(wǎng)行為數(shù)據(jù)采集系統(tǒng),其特征在于,還包括:
用戶ID獲取設(shè)備,用于從數(shù)據(jù)鏈路幀中根據(jù)TCP/IP協(xié)議解析提取用戶的IP地址,根據(jù)用戶IP地址查詢數(shù)據(jù)庫中用戶IP-UserID映射服務(wù)獲得用戶的用戶標(biāo)識(shí)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京邁朗世訊科技有限公司,未經(jīng)北京邁朗世訊科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010232794.6/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 基于骨干結(jié)構(gòu)的高可靠無線廣播方法
- 一種基于LDA與PCA的骨干網(wǎng)架生存性評(píng)估方法
- 一種列車冗余動(dòng)態(tài)配置方法及系統(tǒng)
- 農(nóng)田混合供電無線傳感器網(wǎng)絡(luò)的網(wǎng)絡(luò)層次構(gòu)建方法及系統(tǒng)
- 基于骨干網(wǎng)絡(luò)擴(kuò)展的社團(tuán)檢測(cè)方法
- 一種列車骨干網(wǎng)及列車通信網(wǎng)絡(luò)
- 列車通信網(wǎng)絡(luò)數(shù)據(jù)處理方法及系統(tǒng)
- 蝸殼類鑄件砂芯用防漂芯抗折彎芯骨
- 一種目標(biāo)檢測(cè)方法、系統(tǒng)、裝置及可讀存儲(chǔ)介質(zhì)
- 一種基于無線傳感器網(wǎng)絡(luò)的電力施工現(xiàn)場(chǎng)信息化監(jiān)理系統(tǒng)
- 節(jié)省無線上網(wǎng)流量的方法及相關(guān)終端
- 一種上網(wǎng)控制方法、系統(tǒng)及上網(wǎng)終端
- 上網(wǎng)卡與上網(wǎng)卡的上網(wǎng)方法
- 上網(wǎng)卡的上網(wǎng)方法和上網(wǎng)卡
- 上網(wǎng)控制裝置、系統(tǒng)及方法
- 基于PON家庭終端實(shí)現(xiàn)上網(wǎng)時(shí)間控制的方法
- 一種用于辨別WIFI漫游故障的方法
- 一種上網(wǎng)行為管理系統(tǒng)、設(shè)備及方法
- 上網(wǎng)信息的獲取方法、裝置、電子設(shè)備及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 上網(wǎng)信息的獲取方法、裝置、電子設(shè)備及計(jì)算機(jī)存儲(chǔ)介質(zhì)





