[發明專利]分析大規模數據處理作業的方法、系統以及計算機可讀存儲設備有效
| 申請號: | 201780089600.1 | 申請日: | 2017-10-18 |
| 公開(公告)號: | CN110537170B | 公開(公告)日: | 2023-03-28 |
| 發明(設計)人: | 卡洛斯·亞歷山大·加西亞·德索薩;李葉盛;羅斯·文森特·科斯基;洛維那·沙瑪;阿里夫·蘇科措 | 申請(專利權)人: | 谷歌有限責任公司 |
| 主分類號: | G06F11/34 | 分類號: | G06F11/34 |
| 代理公司: | 上海華誠知識產權代理有限公司 31300 | 代理人: | 肖華 |
| 地址: | 美國加利*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分析 大規模 數據處理 作業 方法 系統 以及 計算機 可讀 存儲 設備 | ||
用于分布式計算系統中的數據分析的方法、系統和裝置,通過訪問存儲在第一處理區與分布式數據處理作業相關聯的數據,檢測識別與分布式數據處理作業相關聯的特定子作業的信息,將識別信息與存儲在第二處理區的數據進行比較,以及基于比較的結果,將附加子作業識別為與分布式數據處理作業相關聯。方法、系統和裝置還用于對于分布式數據處理作業,將與特定子作業相關聯的特定輸出數據和與附加子作業相關聯的附加輸出數據相關聯,基于與特定子作業和附加子作業中的每一個相關聯的輸出數據,確定分布式數據處理作業的性能數據,以及提供用于顯示的分布式數據處理作業的性能數據。
背景技術
大規模數據處理已經在網絡公司和各個行業中廣泛使用。大規模數據處理可以包括并行處理,并行處理通常涉及同時對大數據集的每個元素進行一些操作。各種操作可以在數據并行流水線中被鏈接在一起,以創建用于處理數據集的有效機制。數據集的產生可以涉及創建子作業或者對于主作業或父作業執行的階段,其中每個子作業可以在不同的處理區上執行。然而,考慮到大規模數據處理作業的大小,難以分析大規模作業的性能。
發明內容
本說明書總體涉及大規模數據處理作業。
在數據處理流水線完成運行之后,可能難以實現診斷流水線中的異常。一些挑戰包括缺少日志、難以在多個運行中整理數據、將信息與其他處理事件相關聯、以及確定主作業與該主作業的階段或子作業之間的關系。可能存在一系列相關的診斷信息和分析,包括流水線故障、緩慢和性能指標。因此,需要一種數據分析工具,該數據分析工具能夠收集關于分布式數據處理作業的相關信息,并且能夠診斷數據流水線中的異常。
通常,本說明書中所描述的主題的一個創新方面可以被體現在方法中,所述方法包括以下動作,訪問存儲在第一處理區的存儲設備中的數據,所述數據與已經執行的特定分布式數據處理作業相關聯;從存儲在所述存儲設備中的所述數據檢測識別信息,所述識別信息識別與所述特定分布式數據處理作業相關聯的特定子作業;響應于檢測到識別與所述特定分布式數據處理作業相關聯的特定子作業的所述識別信息,將所述識別信息與存儲在第二處理區的存儲設備中的數據進行比較;基于將所述識別信息與存儲在所述第二處理區的所述存儲設備中的數據進行比較的結果,將附加子作業識別為與所述特定分布式數據處理作業相關聯;對于所述特定分布式數據處理作業,將與所述特定子作業相關聯的特定輸出數據和與所述附加子作業相關聯的附加輸出數據相關聯;基于與所述特定子作業相關聯的所述特定輸出數據和與所述附加子作業相關聯的所述附加輸出數據,確定所述特定分布式數據處理作業的性能數據;以及基于與所述特定子作業相關聯的所述特定輸出數據和與所述附加子作業相關聯的所述附加輸出數據,提供用于顯示的所述特定分布式數據處理作業的所述性能數據。
在某些實施方式中,所述方法還包括以下動作,將所述特定分布式數據處理作業的性能數據與性能閾值進行比較;以及基于將所述特定分布式數據處理作業的性能數據與所述性能閾值進行比較的結果,提供通知。
在某些實施方式中,所述通知包括以下中的一個或多個:聽覺警報、觸覺警報、視覺警報或電子消息。在某些實施方式中,所述性能數據包括以下中的一個或多個:運行時間、存儲器使用、CPU時間、盤使用、每個子作業與所述特定分布式數據處理作業之間的關系、與所述特定分布式數據處理作業相關聯的一個或多個計數器、或處理狀態。
在某些實施方式中,所述存儲器使用、所述CPU時間、所述盤使用、每個子作業與所述特定數據處理作業之間的所述關系、與所述特定分布式數據處理作業相關聯的一個或多個所述計數器、和/或所述處理狀態根據所述通知、特別是到數據處理器的信號而改變,和/或根據與所述性能閾值有關的所述比較的所述結果而改變。
在某些實施方式中,所述方法還包括以下動作,顯示包括所述性能數據的顯示的用戶界面,其中,所述用戶界面包括交互式分層結構。
在某些實施方式中,所述識別信息包括在所述數據中所識別的公共前綴。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于谷歌有限責任公司,未經谷歌有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201780089600.1/2.html,轉載請聲明來源鉆瓜專利網。





