[發(fā)明專利]一種網(wǎng)絡(luò)數(shù)據(jù)處理方法和裝置在審
| 申請?zhí)枺?/td> | 201410093295.1 | 申請日: | 2014-03-13 |
| 公開(公告)號(hào): | CN103905434A | 公開(公告)日: | 2014-07-02 |
| 發(fā)明(設(shè)計(jì))人: | 羅峰;黃蘇支;李娜 | 申請(專利權(quán))人: | 億贊普(北京)科技有限公司 |
| 主分類號(hào): | H04L29/06 | 分類號(hào): | H04L29/06;H04L12/26;H04L29/08 |
| 代理公司: | 北京潤澤恒知識(shí)產(chǎn)權(quán)代理有限公司 11319 | 代理人: | 蘇培華 |
| 地址: | 100081 北京市海淀區(qū)南大街東北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 網(wǎng)絡(luò) 數(shù)據(jù)處理 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及網(wǎng)絡(luò)技術(shù)領(lǐng)域,具體涉及一種網(wǎng)絡(luò)數(shù)據(jù)處理方法和裝置。
背景技術(shù)
隨著互聯(lián)網(wǎng)的飛速發(fā)展,傳統(tǒng)的交易模式已經(jīng)被快捷方便的網(wǎng)絡(luò)交易模式所取代,網(wǎng)絡(luò)推廣營銷方式也更加廣泛,通過用戶的訪問數(shù)據(jù)來分析用戶的興趣愛好和購買習(xí)慣等,可以使網(wǎng)絡(luò)推廣營銷更加具有針對(duì)性,對(duì)感興趣的用戶直接進(jìn)行在線推薦。但是對(duì)于訪問量較多的網(wǎng)站,用戶的訪問數(shù)據(jù)也相當(dāng)?shù)凝嫶螅渲邪ù罅繘]有價(jià)值的垃圾數(shù)據(jù),要想從這些數(shù)據(jù)中分析出用戶的興趣愛好和購買習(xí)慣,需要先對(duì)用戶的訪問數(shù)據(jù)進(jìn)行清洗,過濾掉垃圾數(shù)據(jù)。
當(dāng)用戶訪問一個(gè)網(wǎng)頁時(shí),會(huì)產(chǎn)生大量的HTTP?GET請求,其中絕大多數(shù)包含的是js、css、圖片等類型文件HTTP請求,只有一條或兩條是獲取html文件的請求,該html文件的請求稱為主鏈接,是對(duì)分析用戶行為有用的信息,而那些大量獲取js、css、圖片等HTTP請求則成為沒有價(jià)值的垃圾數(shù)據(jù)。
針對(duì)上述垃圾數(shù)據(jù),現(xiàn)有技術(shù)過濾垃圾數(shù)據(jù)的方法主要步驟如下:
根據(jù)HTTP?GET報(bào)文中請求的文件類型進(jìn)行過濾,判斷文件的后綴,如果是對(duì)應(yīng)的js、css、圖片等文件類型后綴,則丟棄該報(bào)文。例如:
代表js文件的url:http://d1.sina.com.cn/js/index/14/sync.js
代表圖片的url:http://i0.sinaimg.cn/cha/images/c.tif
代表css文件的url:http://img.adbox.sina.com.cn/static/css/base.css
但是,上述根據(jù)文件類型進(jìn)行過濾時(shí),要判斷文件的后綴,由于存在很多js文件并不在url中帶js后綴,同理也包括圖片文件、css文件等,所以根據(jù)文件類型無法將全部的無用類型文件進(jìn)行過濾,造成垃圾數(shù)據(jù)清洗成功率較低,進(jìn)而影響對(duì)用戶上網(wǎng)行為和興趣信息的分析及判斷結(jié)果。
因此,需要本領(lǐng)域技術(shù)人員迫切解決的一個(gè)技術(shù)問題就是:如何提高對(duì)用戶訪問數(shù)據(jù)中垃圾數(shù)據(jù)清洗的成功率,以提高對(duì)用戶行為和興趣信息解析的準(zhǔn)確性。
發(fā)明內(nèi)容
鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的一種網(wǎng)絡(luò)數(shù)據(jù)處理方法和裝置。
依據(jù)本發(fā)明的一個(gè)方面,提供了一種網(wǎng)絡(luò)數(shù)據(jù)處理方法,所述方法包括:
獲取網(wǎng)絡(luò)上行報(bào)文,所述上行報(bào)文攜帶有第一源信息;
匹配所述第一源信息和預(yù)置的用戶訪問記錄表中對(duì)應(yīng)的第二源信息;
若匹配,則確定所述上行報(bào)文為垃圾數(shù)據(jù);若不匹配,則輸出所述上行報(bào)文,以及在所述用戶訪問記錄表中設(shè)置對(duì)應(yīng)的訪問記錄;
過濾垃圾數(shù)據(jù)。
可選地,所述網(wǎng)絡(luò)上行報(bào)文還攜帶有用戶代理信息useragent;
所述過濾垃圾數(shù)據(jù)之前,還包括:
匹配所述代理信息useragent和預(yù)置代理信息配置表,若不匹配,則確定所述網(wǎng)絡(luò)上行報(bào)文為垃圾數(shù)據(jù)。
可選地,所述用戶代理配置信息表中的配置項(xiàng)目包括:操作系統(tǒng)和/或終端品牌和/或?yàn)g覽器和/或應(yīng)用軟件;
所述匹配所述用戶代理信息useragent和預(yù)置的用戶代理信息配置表具體包括:
匹配用戶代理信息useragent與用戶代理配置信息表中的任意一個(gè)配置項(xiàng),若不匹配,則確定所述網(wǎng)絡(luò)上行報(bào)文為垃圾數(shù)據(jù)。
可選地,所述網(wǎng)絡(luò)上行報(bào)文還攜帶有類型信息Accept;
所述過濾垃圾數(shù)據(jù)之前,還包括:
匹配所述類型信息Accept和預(yù)置的類型信息配置表,若匹配,則確定所述網(wǎng)絡(luò)上行報(bào)文為垃圾數(shù)據(jù)。
可選地,所述網(wǎng)絡(luò)上行報(bào)文為http?get報(bào)文,所述第一源信息和第二源信息具體為http?Referer信息。
根據(jù)本發(fā)明的另一方面,提供了一種網(wǎng)絡(luò)數(shù)據(jù)處理裝置,包括:
報(bào)文獲取模塊,用于獲取網(wǎng)絡(luò)上行報(bào)文,所述上行報(bào)文攜帶有第一源信息;
第一匹配模塊,用于匹配所述報(bào)文獲取模塊所獲取網(wǎng)絡(luò)上行報(bào)文中攜帶的第一源信息和預(yù)置的用戶訪問記錄表中對(duì)應(yīng)的第二源信息;
若匹配,則確定所述上行報(bào)文為垃圾數(shù)據(jù);若不匹配,則輸出所述上行報(bào)文,以及在所述用戶訪問記錄表中設(shè)置對(duì)應(yīng)的訪問記錄;
垃圾數(shù)據(jù)處理模塊,用于過濾垃圾數(shù)據(jù)。
可選地,所述報(bào)文獲取模塊所獲取的網(wǎng)絡(luò)上行報(bào)文還攜帶有用戶代理信息useragent;
所述裝置還包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于億贊普(北京)科技有限公司,未經(jīng)億贊普(北京)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410093295.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點(diǎn)網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲(chǔ)介質(zhì)及移動(dòng)終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動(dòng)恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲(chǔ)介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲(chǔ)介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置
- 數(shù)據(jù)處理設(shè)備,數(shù)據(jù)處理方法,和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理電路、數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法、數(shù)據(jù)處理控制方法
- 數(shù)據(jù)處理設(shè)備、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及計(jì)算機(jī)可讀取的記錄介質(zhì)
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測試終端的測試方法
- 一種服裝用人體測量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





