[發(fā)明專利]一種數(shù)據(jù)表關(guān)聯(lián)方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201210196712.6 | 申請(qǐng)日: | 2012-06-14 |
| 公開(公告)號(hào): | CN103488657A | 公開(公告)日: | 2014-01-01 |
| 發(fā)明(設(shè)計(jì))人: | 溫嘉佳;何秀強(qiáng);潘璐伽 | 申請(qǐng)(專利權(quán))人: | 華為技術(shù)有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 北京中博世達(dá)專利商標(biāo)代理有限公司 11274 | 代理人: | 申健 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 數(shù)據(jù)表 關(guān)聯(lián) 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及網(wǎng)絡(luò)信息處理領(lǐng)域,尤其涉及一種數(shù)據(jù)表關(guān)聯(lián)方法及裝置。
背景技術(shù)
當(dāng)今我們處在大數(shù)據(jù)時(shí)代,據(jù)統(tǒng)計(jì)人類每天產(chǎn)生的數(shù)據(jù)量超過2.5quintillion(10^18)字節(jié),在過去兩年產(chǎn)生的數(shù)據(jù)量占人類收集數(shù)據(jù)總量的90%,而且隨著移動(dòng)寬帶網(wǎng)絡(luò)、sensor?network(傳感器網(wǎng)絡(luò))、RFID(radio?frequency?identification?devices,無線射頻識(shí)別)等技術(shù)的快速發(fā)展,人類產(chǎn)生數(shù)據(jù)的速度還在急速增長中。從海量數(shù)據(jù)中挖掘出有價(jià)值的信息,將數(shù)據(jù)轉(zhuǎn)變?yōu)樾畔ⅲM(jìn)而發(fā)掘其中存在的商業(yè)價(jià)值成為技術(shù)熱點(diǎn),以幫助企業(yè)獲得商業(yè)成功。進(jìn)行數(shù)據(jù)挖掘的海量數(shù)據(jù)通常來自于多個(gè)數(shù)據(jù)源,某些有價(jià)值的信息只有通過關(guān)聯(lián)分析隱藏在多個(gè)數(shù)據(jù)源間的關(guān)系才能獲得。在電信網(wǎng)絡(luò)中以信令分析為例,“信令風(fēng)暴”是3G移動(dòng)寬帶網(wǎng)絡(luò)面臨的一個(gè)具有挑戰(zhàn)性的問題。智能手機(jī)的快速普及是信令風(fēng)暴產(chǎn)生的一個(gè)重要原因,表現(xiàn)為終端或業(yè)務(wù)心跳機(jī)制,引發(fā)連接請(qǐng)求次數(shù)和尋呼次數(shù)的大幅度增加,進(jìn)而造成尋呼成功率和EV-DO掉話率劣化。3G網(wǎng)絡(luò)中的信令分析希望通過將數(shù)據(jù)業(yè)務(wù)、終端類型等與信令消耗進(jìn)行關(guān)聯(lián)分析,了解不同數(shù)據(jù)業(yè)務(wù)、終端類型對(duì)信令消耗的不同影響,從而了解信令風(fēng)暴產(chǎn)生的原因,從而給運(yùn)營商提供解決或處理建議。
在現(xiàn)有的技術(shù)中以底層的分布式文件系統(tǒng)HDFS(Hadoop?Distributed?File?System)通過Map-reduce(映射-線性相關(guān))構(gòu)架實(shí)現(xiàn)數(shù)據(jù)關(guān)聯(lián)的分析。通過Map-reduce針對(duì)多數(shù)據(jù)源的關(guān)聯(lián),Hadoop的DataJoin(數(shù)據(jù)連接)機(jī)制實(shí)現(xiàn)如下:以A,B數(shù)據(jù)源(表)用于關(guān)聯(lián)的x1,y1作為映射的鍵值輸出,針對(duì)具有相同鍵值的A,B表,進(jìn)行笛卡爾積,從中選擇滿足條件的結(jié)果作為關(guān)聯(lián)分析結(jié)果;從所有笛卡爾積的關(guān)聯(lián)組合中,選擇符合最優(yōu)條件的記錄。如果假設(shè)A表和B表相同鍵值的表項(xiàng)各自有n,m個(gè),則關(guān)聯(lián)階段的算法復(fù)雜度為O(n*m)。如果A表和B表相同key值的表項(xiàng)過多,則計(jì)算復(fù)雜度相當(dāng)高,因此極大地影響了關(guān)聯(lián)分析的效率。
發(fā)明內(nèi)容
本發(fā)明的實(shí)施例提供一種數(shù)據(jù)表關(guān)聯(lián)方法及裝置,能夠有效提高數(shù)據(jù)關(guān)聯(lián)分析的執(zhí)行效率,實(shí)現(xiàn)數(shù)據(jù)關(guān)聯(lián)分析的準(zhǔn)實(shí)時(shí)性。
為達(dá)到上述目的,本發(fā)明的實(shí)施例采用如下技術(shù)方案:
一方面,提供一種數(shù)據(jù)表關(guān)聯(lián)方法,包括:
讀取分布式計(jì)算系統(tǒng)文件,根據(jù)數(shù)值關(guān)系分析中的等值條件以所述系統(tǒng)文件中任意兩個(gè)數(shù)據(jù)源各自的屬性值建立滿足所述等值條件的鍵值對(duì),其中所述數(shù)據(jù)源中每條數(shù)據(jù)記錄與所述數(shù)據(jù)源各自的屬性值之間具有固定函數(shù)關(guān)系;
將建立所述鍵值對(duì)的任意兩個(gè)數(shù)據(jù)源中的數(shù)據(jù)記錄分別按照各自滿足的固定函數(shù)關(guān)系提供的順序進(jìn)行遍歷,在所述兩個(gè)數(shù)據(jù)源中找到各自固定函數(shù)關(guān)系之間滿足最優(yōu)條件的數(shù)據(jù)記錄。
一方面,提供一種數(shù)據(jù)表關(guān)聯(lián)的裝置,包括:
至少一個(gè)映射器,用于讀取分布式計(jì)算系統(tǒng)文件,根據(jù)數(shù)值關(guān)系分析中的等值條件以所述系統(tǒng)文件中任意兩個(gè)數(shù)據(jù)源各自的屬性值建立滿足所述等值條件的鍵值對(duì),其中所述數(shù)據(jù)源中每條數(shù)據(jù)記錄與所述數(shù)據(jù)源各自的屬性值之間具有固定函數(shù)關(guān)系;
至少一個(gè)遍歷器,用于將建立所述鍵值對(duì)的任意兩個(gè)數(shù)據(jù)源中的數(shù)據(jù)記錄分別按照各自滿足的固定函數(shù)關(guān)系提供的順序進(jìn)行遍歷,在所述兩個(gè)數(shù)據(jù)源中找到各自固定函數(shù)關(guān)系之間滿足最優(yōu)條件的數(shù)據(jù)記錄。
本發(fā)明的實(shí)施例提供一種數(shù)據(jù)表關(guān)聯(lián)方法及裝置,通過采用按順序遍歷的方法實(shí)現(xiàn)數(shù)據(jù)的關(guān)聯(lián),能夠有效提高數(shù)據(jù)關(guān)聯(lián)分析的執(zhí)行效率,實(shí)現(xiàn)數(shù)據(jù)關(guān)聯(lián)分析的準(zhǔn)實(shí)時(shí)性。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明實(shí)施例提供的一種數(shù)據(jù)表關(guān)聯(lián)的方法流程示意圖;
圖2為本發(fā)明實(shí)施例提供的一種滿足性條件搜索方法示意圖;
圖3為本發(fā)明另一實(shí)施例提供的一種數(shù)據(jù)表關(guān)聯(lián)的方法流程示意圖;
圖4為本發(fā)明實(shí)施例提供的一種數(shù)據(jù)表關(guān)聯(lián)裝置示意圖;
圖5為本發(fā)明另一實(shí)施例提供的一種數(shù)據(jù)表關(guān)聯(lián)裝置示意圖;
圖6為本發(fā)明又一實(shí)施例提供的一種數(shù)據(jù)表關(guān)聯(lián)裝置示意圖。
具體實(shí)施方式
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華為技術(shù)有限公司,未經(jīng)華為技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210196712.6/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種防靜電陶瓷材料及其制備方法
- 下一篇:一種低糖草莓果脯
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 數(shù)據(jù)表儲(chǔ)存、修改、查詢和統(tǒng)計(jì)方法
- 一種基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)表分類系統(tǒng)與方法
- 數(shù)據(jù)表儲(chǔ)存、修改、查詢和統(tǒng)計(jì)方法
- 一種數(shù)據(jù)識(shí)別方法及裝置
- 一種數(shù)據(jù)表切換方法及裝置
- 數(shù)據(jù)表的校驗(yàn)方法及裝置、電子設(shè)備、存儲(chǔ)介質(zhì)
- 對(duì)數(shù)據(jù)集中的數(shù)據(jù)表進(jìn)行抽樣和校驗(yàn)的方法及裝置
- 主機(jī)中數(shù)據(jù)關(guān)聯(lián)訪問的方法和裝置
- 數(shù)據(jù)管理方法、裝置及服務(wù)器
- 數(shù)據(jù)處理方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 關(guān)聯(lián)裝置
- 數(shù)據(jù)關(guān)聯(lián)裝置和數(shù)據(jù)關(guān)聯(lián)方法
- 安全關(guān)聯(lián)
- 設(shè)備關(guān)聯(lián)
- 終端關(guān)聯(lián)裝置和終端關(guān)聯(lián)方法
- 關(guān)聯(lián)方法和關(guān)聯(lián)設(shè)備
- 關(guān)聯(lián)方法和關(guān)聯(lián)設(shè)備
- 關(guān)聯(lián)方法和關(guān)聯(lián)設(shè)備
- 關(guān)聯(lián)分析方法和關(guān)聯(lián)分析系統(tǒng)
- 報(bào)文關(guān)聯(lián)方法、報(bào)文關(guān)聯(lián)裝置及報(bào)文關(guān)聯(lián)系統(tǒng)
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





