[發明專利]一種智能大數據處理方法和裝置在審
| 申請號: | 201510073311.5 | 申請日: | 2015-02-11 |
| 公開(公告)號: | CN104598321A | 公開(公告)日: | 2015-05-06 |
| 發明(設計)人: | 李克學;范瑩;戴鴻君 | 申請(專利權)人: | 浪潮集團有限公司 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50 |
| 代理公司: | 濟南信達專利事務所有限公司 37100 | 代理人: | 李世喆 |
| 地址: | 250100 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 智能 數據處理 方法 裝置 | ||
技術領域
本發明涉及計算機技術領域,特別涉及一種智能大數據處理方法和裝置。
背景技術
隨著計算機技術的不斷發展,出現了大數據。大數據首先是指數據體量大,指代大型數據集,但在實際應用中,很多企業用戶把多個數據集放在一起,已經形成了PB級的數據量;大數據其次是指數據類別大,數據來自多種數據源,數據種類和格式日漸豐富,已沖破了以前所限定的結構化數據范疇,囊括了半結構化和非結構化數據。
因此,如何對大數據進行處理,成為了一個亟待解決的問題。
發明內容
本發明提供了一種大數據的處理方法和裝置,能夠有效地對大數據進行處理。
一種智能大數據處理方法,包括:
形成存儲大數據的包括多個計算機的計算機集群;
采集大數據;
以列式存儲的方式,將采集到的大數據存儲到LSM樹中;
將各個LSM樹分別存儲到所述計算機集群中的各個計算機中。
優選地,應用于智能視覺監控系統,
進一步包括:預先設置基于LSM樹的分布式存儲表,該存儲表以時間段的視頻作為行健,目標的實時檢測、目標分類、運動目標的跟蹤過程、視頻內容的分析分別作為列族;
所述以列式存儲的方式將采集到的大數據存儲到LSM樹中包括:
將采集到的大數據,按照目標的實時檢測、目標分類、運動目標的跟蹤過程、視頻內容的分析進行分類處理后,分別存儲到所述分布式存儲表中對應列族的LSM樹中;在每一個列族中,將每一個LSM樹中的數據寫入內存中,當每一個LSM樹達到預定大小后,將內存中的LSM樹的數據溢出到磁盤中,并定期將磁盤中的LSM樹合并成一棵新的LSM樹。
所述將各個LSM樹分別存儲到所述計算機集群中的各個計算機中包括:將合并后的各個新的LSM樹分別存儲到所述計算機集群中的各個計算機中。
優選地,在所述將各個LSM樹分別存儲到所述計算機集群中的各個計算機中之后,進一步包括:
為所述計算機集群中的每一個計算機建立對應的任務;在接收到實際任務之后,將各個實際任務分發到所述計算機集群中對應的計算機中;各個實際任務從被分發到的計算機中存儲的LSM樹中實時讀取或分析大數據。
其中,所述實際任務為mapreduce任務。
優選地,所述采集大數據包括:采集設定時間段內的智能視覺監控系統中的數據。
一種智能大數據的處理裝置,包括:
形成單元,用于形成存儲大數據的包括多個計算機的計算機集群;
采集單元,用于采集大數據;
LSM樹處理單元,用于以列式存儲的方式,將采集到的大數據存儲到LSM樹中;
集群處理單元,用于將各個LSM樹分別存儲到所述計算機集群中的各個計算機中。
其中,所述LSM樹處理單元,進一步用于設置基于LSM樹的分布式存儲表,該存儲表以時間段的視頻作為行健,目標的實時檢測、目標分類、運動目標的跟蹤過程、視頻內容的分析分別作為列族;將采集到的大數據,具體按照目標的實時檢測、目標分類、運動目標的跟蹤過程、視頻內容的分析進行分類處理后,分別存儲到所述分布式存儲表中對應列族的LSM樹中;在每一個列族中,將每一個LSM樹中的數據寫入內存中,當每一個LSM樹達到預定大小后,將內存中的LSM樹的數據溢出到磁盤中,并定期將磁盤中的LSM樹合并成一棵新的LSM樹。
所述集群處理單元,具體是將合并后的各個新的LSM樹分別存儲到所述計算機集群中的各個計算機中。
優選地,所述集群處理單元,進一步用于為所述計算機集群中的每一個計算機建立對應的任務;在接收到實際任務之后,將各個實際任務分發到所述計算機集群中對應的計算機中;各個實際任務從被分發到的計算機中存儲的LSM樹中讀取大數據。
本發明實施例提供的智能大數據處理方法和裝置,能夠將大數據分布存儲到計算機集群中的多個計算機中,而不是集中存儲到一臺計算機中;并且,存儲的時候,以列式存儲的方式存儲到LSM中,而不是直接存儲到數據庫中,因此,解決了大數據的存儲問題。
另外,在本發明的實施例中,基于分布式集群計算機存儲方式及LSM樹的存儲方式,能夠實現大數據的實時存儲,避免數據量過大造成的存儲困難問題。
在本發明的實施例中,可以分發任務到計算機集群中的各個計算機,在任務為獲取大數據時,所獲取的大數據是從集群中的各個計算機的LSM樹中實時獲取的。因此,實現了實時獲取大數據的目的。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浪潮集團有限公司;,未經浪潮集團有限公司;許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510073311.5/2.html,轉載請聲明來源鉆瓜專利網。





