[發明專利]用于處理日志的方法及其系統在審
| 申請號: | 201210467081.7 | 申請日: | 2012-11-19 |
| 公開(公告)號: | CN103823811A | 公開(公告)日: | 2014-05-28 |
| 發明(設計)人: | 宋歡;李鵬;何威;曹曉冬;廖迪青 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京銘碩知識產權代理有限公司 11286 | 代理人: | 羅延紅 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 處理 日志 方法 及其 系統 | ||
技術領域
本申請涉及網絡日志服務系統領域,更具體地說,涉及一種以規范化的方式來處理日志的方法和系統。
背景技術
隨著互聯網技術和信息處理技術的發展,越來越多的終端用戶已經接入網絡,并在日常工作、學習和生活中將大量的時間用來上網。針對每個用戶的每次操作行為,網絡上的諸多環節都將會產生相應的網絡日志。在提供各種服務的服務器端產生的各種網絡日志反映出各個服務的運行情況,也有助于服務提供商了解用戶的上網行為,從而給出技術上的保障或改進。
然而,網絡日志的數量巨大,常常需要對百億條日志進行處理。此外,這些日志很可能因為產生的來源不同而具有不同的格式。例如,當某個用戶作出網頁瀏覽的相關動作(諸如點擊)時,涉及頁面變化、數據提取和處理、內容展示等各個方面的網絡日志均會相應地被產生,其中,前端的頁面設計美工人員與后端的數據處理程序員通常會得到不同格式的相應日志。此外,針對同一個用戶動作,網頁中的不同模塊也將分別產生各自的日志。由此可見,網絡日志數量巨大,內容繁雜,且其在產生來源上的差異還可能導致得到的日志具有異構性,因此,很難有效地處理產生的海量日志。
另外,對網絡日志進行處理是服務提供商維護網絡的重要一環,在現有技術中,為了統計這些日志,常常需要將網絡日志存儲為表格形式,此后,針對想要統計的內容來設置相應的處理過程,這種方式存在一定的弊端,具體說來,利用表格來存儲海量日志數據會大大降低數據的處理速度,而且在統計日志時也受限于表格這種形式,并且為了統計特定的統計項目,需要反復地篩選表格中的海量日志,由于網絡日志數據的龐大,這種統計方式將耗費大量的時間,且欠缺靈活性。
因此,現有的日志服務系統在處理海量日志時,其巨大的數據量給日志數據的存儲和統計帶來很大的不便。此外,當日志因為產生來源不同而具有不同的格式時,也難以對這些異構日志進行統計等處理。
發明內容
本發明的目的在于提供一種能夠以規范化的方式來處理海量日志的方法和系統。
根據本發明的一方面,提供一種用于處理日志的方法,包括:收集步驟:收集由網絡上的各個服務器針對用戶操作而產生的異構日志,其中,基于用戶操作在各個服務器上引起的動作項目來產生異構日志,使得異構日志包括指示動作項目的項目標識符字段;格式轉換步驟:將收集的異構日志轉換為具有統一格式的日志,其中,所述統一格式包括項目標識符字段;組合步驟:通過組合具有統一格式的日志來產生中間日志文件,并將中間日志文件存儲在不同于所述各個服務器的中間服務器上;統計步驟:基于指示期望統計的動作項目的項目標識符字段來配置日志規格文檔,以利用日志規格文檔從中間日志文件所包括的各個日志中自動統計期望統計的動作項目。
所述網絡上的各個服務器可以是前端服務器或后端服務器。
所述統一格式還可包括以下字段中的至少一個:用戶標識符字段、日志標識符字段、日志產生時間字段、日志來源字段、用戶行為描述字段。
格式轉換步驟可包括:解析步驟:基于統一格式中的各個字段來解析收集的異構日志;字段排列步驟:排列解析出的各個字段,以得到具有統一格式的日志。
日志規格文檔可按照XML來配置,從而以項目標識符為搜索條件來統計期望統計的動作項目。
搜索條件可包括以下字段中的至少一個與項目標識符的結合:日志產生時間字段、日志來源字段、用戶行為描述字段。
解析步驟可包括:提取步驟:基于統一格式中的各個字段來提取異構日志中的字段;修正步驟:對提取的字段進行修正以與統一格式中的相應字段完全一致。
在組合步驟中,特定時間段內產生的具有相同用戶標識符字段、日志標識符字段或相同用戶行為描述字段的日志可被合并為一條日志。
根據本發明的另一方面,提供一種用于處理日志的系統,包括:收集裝置:收集由網絡上的各個服務器針對用戶操作而產生的異構日志,其中,基于用戶操作在各個服務器上引起的動作項目來產生異構日志,使得異構日志包括指示動作項目的項目標識符字段;格式轉換裝置:將收集的異構日志轉換為具有統一格式的日志,其中,所述統一格式包括項目標識符字段;組合裝置:通過組合具有統一格式的日志來產生中間日志文件,并將中間日志文件存儲在不同于所述各個服務器的中間服務器上;統計裝置:基于指示期望統計的動作項目的項目標識符字段來配置日志規格文檔,以利用日志規格文檔從中間日志文件所包括的各個日志中自動統計期望統計的動作項目。
格式轉換裝置可包括:解析裝置:基于統一格式中的各個字段來解析收集的異構日志;字段排列裝置:排列解析出的各個字段,以得到具有統一格式的日志。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210467081.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:簡易母排折彎機
- 下一篇:半導體裝置及半導體模塊





