[發明專利]互聯網信息統計方法及系統無效
| 申請號: | 201310127492.6 | 申請日: | 2013-04-12 |
| 公開(公告)號: | CN103200269A | 公開(公告)日: | 2013-07-10 |
| 發明(設計)人: | 余效偉;羅峰;黃蘇支;李娜 | 申請(專利權)人: | 億贊普(北京)科技有限公司 |
| 主分類號: | H04L29/08 | 分類號: | H04L29/08;G06F17/30;H04L29/12 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 馬曉亞 |
| 地址: | 100193 北京市海淀區南大街東北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 互聯網 信息 統計 方法 系統 | ||
技術領域
本發明涉及計算機網絡技術領域,尤其涉及一種互聯網信息統計方法及其系統。
背景技術
Alexa是互聯網首屈一指的免費提供網站流量信息的公司,創建于1996年,一直致力于開發網頁抓取和網站流量計算的工具。Alexa排名是目前常引用的用來評價某一網站訪問量的一個指標。
Alexa的網站世界排名主要分兩種:綜合排名和分類排名。
綜合排名也叫絕對排名,即特定的一個網站在所有網站中的名次。Alexa每三個月公布一次新的網站綜合排名。此排名的依據是用戶鏈接數(Users?Reach)和頁面瀏覽數(Page?Views)三個月累積的幾何平均值。
分類排名,一是按主題分類,比如新聞、娛樂、購物等,Alexa給出某個特定網站在同一類網站中的名次。二是按語言分類,目前共分20種語言,比如英文網站、中文網站[Chinese(simpl)和Chinese(trad)]等,給出特定站點在所有此類語言網站中的名次。
Alexa還會根據網民對網站的評論,在綜合排名信息中,用“星”來給網站評一個等級,最高為“5星”。國內網站排名最靠前的百度,得了“三星半”。Alexa網站本身不參加排名,但是Alexa給自己的評價為4星。
但是,Alexa只能提供一個粗略的排名信息,無法提供更多的選項和界面。
發明內容
本發明的目的在于提出一種互聯網信息統計方法及其系統,使得能夠為不同的業務系統及用戶以不同的粒度、高速準確地提供豐富的網絡訪問數據,為決策部門提供翔實客觀的數據支持。
為達此目的,本發明采用以下技術方案:
一種互聯網信息統計方法,其特征在于,包括:
S1、按照業務主題將用戶網絡訪問數據通過MapReduce劃分成多個業務主題數據集,其中,所述用戶網絡訪問數據為用戶跨網訪問數據;
S2、對每個業務主題數據集中包含的數據根據不同的指標進行統計,將各業務主題的統計數據保存起來;
S3、當接收到統計信息查詢請求時,根據所述查詢請求要查詢的業務主題獲取對應的統計數據并返回。
進一步地,在步驟S1之前還包括:
預先去除網絡訪問數據中的無效數據。
進一步地,所述無效數據包括:后綴錯誤的域名數據,訪問量小于預設閾值的域名數據。
進一步地,在識別無效數據時先判斷是否屬于黑白名單中預設的域名數據,對于白名單中的域名數據和所述域名數據的下級域名數據,始終視為有效數據,對于黑名單中的域名數據和所述域名數據的下級域名數據,始終視為無效數據。
進一步地,以服務的形式為步驟S2中的各業務主題的統計數據提供訪問接口。
進一步地,利用所述服務創建至少一個業務子模塊,其中封裝了針對所述統計數據的預定義運算,并以服務的形式為該業務子模塊提供訪問接口。
根據本發明的同一構思,本發明還提供了一種互聯網信息統計系統,包括:
一種互聯網信息統計系統,其特征在于,包括:
數據拆分單元,按照業務主題將用戶網絡訪問數據通過MapReduce劃分成多個業務主題數據集,其中,所述用戶網絡訪問數據為用戶跨網訪問數據;
數據匯總單元,對每個業務主題數據集中包含的數據根據不同的指標進行統計,將各業務主題的統計數據保存起來;
數據查詢單元,當接收到統計信息查詢請求時,根據所述查詢請求要查詢的業務主題獲取對應的統計數據并返回。
進一步地,所述系統還包括:
數據預處理單元,預先去除網絡訪問數據中的無效數據。
進一步地,所述無效數據包括:后綴錯誤的域名數據,訪問量小于預設閾值的域名數據。
進一步地,在識別無效數據時先判斷是否屬于黑白名單中預設的域名數據,對于白名單中的域名數據和所述域名數據的下級域名數據,始終視為有效數據,對于黑名單中的域名數據和所述域名數據的下級域名數據,始終視為無效數據。
進一步地,所述系統還包括:
數據集市,保存數據匯總單元統計得到的數據。
進一步地,所述系統還包括:
第一服務單元,以服務的形式為數據匯總單元統計得到的各業務主題的統計數據提供訪問接口。
進一步地,所述系統還包括:
第二服務單元,利用所述第一服務單元提供的服務創建至少一個業務子模塊,其中封裝了針對所述統計數據的預定義運算,并以服務的形式為該業務子模塊提供訪問接口。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于億贊普(北京)科技有限公司,未經億贊普(北京)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310127492.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:棱鏡片和包括棱鏡片的背光單元
- 下一篇:氣輪機齒輪系
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





