[發明專利]基于分布式文件存儲的網站頁面內容統計的方法和系統在審
| 申請號: | 201410038246.8 | 申請日: | 2014-01-26 |
| 公開(公告)號: | CN103729479A | 公開(公告)日: | 2014-04-16 |
| 發明(設計)人: | 瞿繼合;趙哲;曹東;李建濤 | 申請(專利權)人: | 北京北緯通信科技股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F11/34 |
| 代理公司: | 北京國昊天誠知識產權代理有限公司 11315 | 代理人: | 許志勇;于淼 |
| 地址: | 100166 北京市豐*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 分布式 文件 存儲 網站 頁面 內容 統計 方法 系統 | ||
技術領域
本申請涉及網站數據統計領域,具體地說,是涉及一種基于分布式文件存儲的網站頁面內容統計的方法和系統。
背景技術
現有技術中,MongoDB(分布式文件存儲數據庫,介于關系數據庫和非關系數據庫之間的產品)支持的數據結構非常松散,是類似json的bson格式,因此可以存儲比較復雜的數據類型。Mongo最大的特點是支持的查詢語言非常強大,其語法類似于面向對象的查詢語言,幾乎可以實現類似關系數據庫單表查詢的絕大部分功能,而且還支持對數據建立索引。MongoDB旨在為WEB應用提供可擴展的高性能數據存儲解決方案。
目前,基于文件和數據庫的網站需要進行UV(獨立訪客,Unique?Vistor,訪問您網站的一臺電腦客戶端為一個訪客)、PV(訪問量,Page?View,頁面瀏覽量或點擊量,用戶每次刷新即被計算一次)的統計,這兩種方式的統計都比較粗線條,不能靈活的根據業務類型方便的組合查詢條件。
例如:網站上廣告的PV、UV的統計。網站的頁面上有各種各樣的廣告鏈接,每個廣告鏈接都對應一個id主鍵標識。用戶點擊廣告鏈接便生成一個在網站日志中產生一條包含該訪客特征及廣告id主鍵的url(Uniform?Resource?Locator,統一資源定位符)訪問信息,通過對所有包含廣告id主鍵標識的url訪問信息進行聚合計算,可以輸出一段時間內某一個廣告總共被點擊了幾次(這里被點擊的次數即為該段時間內該廣告的PV),還可以得到一段時間內有多少個訪客訪問了某一個廣告(這里計算輸出的訪客數量即為該段時間內該廣告的UV)。然而,如之前所述這兩種方式的統計都比較粗線條,不能靈活的根據業務類型方便的組合查詢條件。
因此,如何解決根據業務類型方便的組合查詢條件進行網站的PV、UV統計,便成為亟待解決的技術問題。
發明內容
本申請所要解決的技術問題是提供一種基于分布式文件存儲的網站頁面內容統計的方法和系統,以解決根據業務類型方便的組合查詢條件進行網站的PV、UV統計的問題。
為解決上述技術問題,本申請提供了一種基于分布式文件存儲的網站頁面內容統計的方法,其特征在于,包括:
采集訪問日志,并將所述訪問日志存入分布式文件存儲數據庫中,以小時為單位存儲到所述分布式文件存儲數據庫中的相應的集合文檔中;
對存儲到所述分布式文件存儲數據庫中的訪問日志進行分解并找出該訪問日志中的有效日志信息,將有效日志信息與該訪問日志建立映射關系;
對該訪問日志下的所有有效日志信息進行化簡操作,輸出化簡后的有效日志信息,根據所述化簡后的有效日志信息,輸出該訪問日志下的以訪問為主鍵的點擊量和對應的流量中間數據的值,或輸出該訪問日志下的以訪問和會話身份為主鍵的獨立訪客數量和對應的流量中間數據的值。
優選地,所述有效日志信息,包括:mobile字段、url字段、query字段和/或op字段。
優選地,將有效日志信息與該訪問日志建立映射關系,進一步為:將所述mobile字段、url字段、query字段和/或op字段的對應值通過所述分布式文件存儲數據庫中的分布式計算中設定的該訪問日志的特征值建立映射關系。
優選地,以小時為單位存儲到所述分布式文件存儲數據庫中的相應的集合文檔中,進一步為:以小時為單位,按照格式為日志通量yyyyMMddHH的方式存儲到所述分布式文件存儲數據庫中的相應的集合文檔中。
優選地,對該訪問日志下的所有有效日志信息進行化簡操作,輸出化簡后的有效日志信息,根據所述化簡后的有效日志信息,輸出該訪問日志下的以訪問為主鍵的點擊量和對應的流量中間數據的值,或輸出該訪問日志下的以訪問和會話身份為主鍵的獨立訪客數量和對應的流量中間數據的值,進一步為:
對該訪問日志下的所有有效日志信息進行化簡操作,輸出化簡后的有效日志信息,根據所述化簡后的有效日志信息以小時、天、周、月或年為單位,輸出該訪問日志下的以訪問為主鍵的點擊量和對應的流量中間數據的值,或輸出該訪問日志下的以訪問和會話身份為主鍵的獨立訪客數量和對應的流量中間數據的值。
為解決上述技術問題,本申請還提供了一種基于分布式文件存儲的網站頁面內容統計的系統,其特征在于,包括:采集訪問日志模塊、查找分析模塊和化簡統計模塊;其中,
所述采集訪問日志模塊,將所述訪問日志存入分布式文件存儲數據庫中,以小時為單位存儲到所述分布式文件存儲數據庫中的相應的集合文檔中;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京北緯通信科技股份有限公司,未經北京北緯通信科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410038246.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:魔方衛星及其設計方法
- 下一篇:一種嵌套可調式抗體孵育盒





