[發明專利]跨多數據表的數據處理方法、裝置、介質和計算設備有效
| 申請號: | 201710866877.2 | 申請日: | 2017-09-22 |
| 公開(公告)號: | CN108268586B | 公開(公告)日: | 2020-06-16 |
| 發明(設計)人: | 李光明 | 申請(專利權)人: | 阿里巴巴(中國)有限公司 |
| 主分類號: | G06F16/22 | 分類號: | G06F16/22;G06F16/2458 |
| 代理公司: | 上海知錦知識產權代理事務所(特殊普通合伙) 31327 | 代理人: | 湯陳龍 |
| 地址: | 310052 浙江省杭州市濱江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 多數 數據處理 方法 裝置 介質 計算 設備 | ||
本申請提供一種跨多數據表的數據處理方法、裝置、介質和計算設備。所述方法包括:獲取多個第一數據表;將多個第一數據表中每個第一數據表的每一行轉換為一個子數據表,所述子數據表的每一行包括所述對象標識和所述對象標識所標識的對象的一個特征數據,所述第一數據表對應的子數據表構成第二數據表;以第二數據表中的特征數據為連接鍵,對每個第一數據表對應的第二數據表進行表連接,得到目標數據表。本申請提供的上述方法根據實際業務需求轉換角度,以特征數據為立足點,在不引入冗余數據的情況下將多個數據表中的對象進行關聯,可以分布到多個Reducer中執行,具有較高的數據處理能力和數據處理效率,可以高效地勝任大數據處理。
技術領域
本申請涉及數據處理技術領域,尤其涉及一種跨多數據表的數據處理方法、裝置、介質和計算設備。
背景技術
隨著互聯網及大數據技術的快速發展,數據挖掘分析對于人類活動的影響日益顯著,通過大數據可以進行對象之間的相關性分析,確定不同對象之間的內在關聯關系,進而通過興趣推薦等方式提高用戶生活質量,例如,通過分析用戶共同閱讀過的文章,可以確定用戶之間的相關性,進而向具有相同興趣的用戶進行文章推薦,提高用戶體驗。
在進行相關性分析或推薦時,往往需要跨多個數據表分析用戶之間的相關性,目前常用的方法是,將多個數據表通過笛卡爾積合并為一個數據表后再通過映射規約(MapReduce)進行分析。但實際應用中,隨著數據量越來越大,基于笛卡爾積對海量數據表進行操作效率越來越低,比如,統計兩組用戶兩兩之間閱讀過的相同文章的數量,按照上述方法,需要將兩組用戶對應的數據表進行笛卡爾積操作后再通過Reducer(執行規約任務的任務機)進行分析。但是,由于笛卡爾積沒有連接鍵,只能使用一個Reducer完成分析任務,在數據量較大時,受單一Reducer處理能力制約,容易造成Reducer的任務執行結果不正確,甚至任務無法執行完成的情況。
針對上述問題,目前有兩種解決方案:
一種解決方案是:如果要進行笛卡爾積操作的兩個表中,有一個是小表(數據量遠小于另一個表),可以將這張小表的數據加載到內存中,從而加速笛卡爾積的處理速度。但是這種解決方案的一個重要限制就是:受內存容量制約,必須要存在一張規模遠小于另一張表的數據表才會生效。因此,該解決方案顯然難以勝任大數據表的處理。
另一種解決方案是:額外構造join key(連接鍵),通過表連接操作代替笛卡爾積操作,具體做法是將小表擴充一列join key,并將小表的條目復制數倍,且join key各不相同;將大表擴充一列join key為小表擴充數倍之后數據總量范圍內的隨機數。例如,假設小表中只有1條數據,大表中1000條數據,給小表添加一列join key,設其值為1,將該數據擴充四倍,其join key的值分別為2~5,大表中的join key,使用1~5之間的隨機數,比如有200個1,200個2,200個3,200個4和200個5,此時,根據join key進行兩個表的連接操作時,就會產生5個reducer,同時將大表的數據隨機分成了5份(小表擴展后的倍數),從而解決了上述問題。但是,該解決方案的的本質仍然與笛卡爾積操作相同,其弊端是會造成數據的冗余,且實際執行起來比較繁瑣、效率低下。
綜上,目前迫切需要一種能夠勝任大數據處理的、高效的跨多數據表的數據處理方法。
發明內容
本申請提供一種跨多數據表的數據處理方法、裝置、介質和計算設備,以高效地對大數據進行處理。
一方面,本申請提供一種跨多數據表的數據處理方法,包括:
獲取多個第一數據表,所述多個第一數據表中的每個第一數據表的每一行包括對象標識和所述對象標識所標識的對象的多個特征數據;
將多個第一數據表中每個第一數據表的每一行轉換為一個子數據表,所述子數據表的每一行包括所述對象標識和所述對象標識所標識的對象的一個特征數據,所述第一數據表對應的子數據表構成第二數據表;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴(中國)有限公司,未經阿里巴巴(中國)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710866877.2/2.html,轉載請聲明來源鉆瓜專利網。





