[發明專利]用于處理數據的方法和裝置有效
| 申請號: | 201811275535.4 | 申請日: | 2018-10-30 |
| 公開(公告)號: | CN111125163B | 公開(公告)日: | 2023-06-06 |
| 發明(設計)人: | 程怡;石然;高偉康;王炎林;邢越 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G06F16/2455 | 分類號: | G06F16/2455 |
| 代理公司: | 北京英賽嘉華知識產權代理有限責任公司 11204 | 代理人: | 王達佐;馬曉亞 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 處理 數據 方法 裝置 | ||
本申請實施例公開了用于處理數據的方法和裝置。該方法的一具體實施方式包括:從流式計算系統中數據流流至的目標數據處理節點的上游數據處理節點獲取待處理數據和與待處理數據對應的數據處理日志;查詢與上游節點算子標識和上游節點標識二者對應的已處理數據最大序號;響應于確定上游節點當前數據序號大于所確定的已處理數據最大序號,對待處理數據進行處理,得到結果數據,將目標數據處理節點的當前數據序號遞增預設增量數目;最后,將結果數據、數據處理日志和目標數據處理節點的當前數據序號對應持久化存儲。該實施方式降低了數據處理節點的數據去重操作所需的存儲空間。
技術領域
本申請實施例涉及計算機技術領域,具體涉及用于處理數據的方法和裝置。
背景技術
流式計算(Stream?Computing)是一種強調極低延遲的分布式計算,廣泛應用于信息流、廣告、網頁建庫、地圖等領域。流式計算的計算結果的準確性要求也越來越高,其中一個方面就體現在計算結果的不丟不重(Exactly-once)。其中,“增量備份與數據重放”的去重方法中采用BloomFilter(Bloom?filter是由Howard?Bloom在1970年提出的二進制向量數據結構)做內存級粗篩去重,一旦命中后還需查詢外部存儲Bigtable(BigTable是Google設計的分布式數據存儲系統,用來處理海量的數據的一種非關系型的數據庫)。該去重方法在高吞吐時每個節點的BloomFilter所需額外占用的內存較多,通常達到幾百MB(兆字節,MByte)甚至幾個GB(吉字節,Gigabyte)的內存,且失敗恢復的長尾延遲嚴重受限于外部存儲的性能。
發明內容
本申請實施例提出了用于處理數據的方法和裝置。
第一方面,本申請實施例提供了一種用于處理數據的方法,應用于流式計算系統中的數據處理節點,該方法包括:從流式計算系統中數據流流至的目標數據處理節點的上游數據處理節點獲取待處理數據和與待處理數據對應的包括上游節點算子標識、上游節點標識和上游節點當前數據序號的數據處理日志;查詢與上游節點算子標識和上游節點標識二者對應的已處理數據最大序號;響應于確定上游節點當前數據序號大于所確定的已處理數據最大序號,對待處理數據進行處理,得到結果數據,將目標數據處理節點的當前數據序號遞增預設增量數目;將結果數據、數據處理日志和目標數據處理節點的當前數據序號對應持久化存儲。
在一些實施例中,在對待處理數據進行處理,得到結果數據之后,該方法還包括:將與上游節點算子標識和上游節點標識二者對應的已處理數據最大序號更新為上游節點當前數據序號并持久化存儲。
在一些實施例中,流式計算系統關聯有有向無環圖,有向無環圖中的每個頂點對應一個算子標識,有向無環圖的各個頂點對應的算子標識互不相同,每個算子標識對應至少一個互不相同的數據處理節點標識,有向無環圖的有向邊用于表征數據流從該有向邊的起點對應的算子標識所對應的數據處理節點流入該有向邊的終點對應的算子標識所對應的數據處理節點。
在一些實施例中,數據流從有向無環圖中入度為零的頂點對應的算子標識對應的數據處理節點流入,并在流經有向無環圖中出度為零的頂點對應的算子標識對應的數據處理節點之后流出流式計算系統。
在一些實施例中,上游節點算子標識用于指示處理上游數據處理節點中對數據進行處理的數據處理邏輯的代碼段,上游節點標識用于指示上游數據處理節點,上游節點當前數據序號用于表征上游數據處理節點所處理并得到待處理數據的數據的數據序號。
在一些實施例中,該方法還包括:響應于確定重啟目標處理節點,獲取持久化存儲的目標數據處理節點的當前數據序號以及對應的結果數據和數據處理日志,以及獲取持久化存儲的與各算子標識和節點標識二者對應的已處理數據最大序號。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811275535.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種光響應液晶彈性體纖維膜及制備方法
- 下一篇:一種焊接式蝸殼泵
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





