[發(fā)明專(zhuān)利]一種大規(guī)模分布式函數(shù)依賴(lài)發(fā)現(xiàn)方法在審
| 申請(qǐng)?zhí)枺?/td> | 201810367758.7 | 申請(qǐng)日: | 2018-04-23 |
| 公開(kāi)(公告)號(hào): | CN108595624A | 公開(kāi)(公告)日: | 2018-09-28 |
| 發(fā)明(設(shè)計(jì))人: | 顧榮;黃宜華;朱光輝;王千;袁春風(fēng) | 申請(qǐng)(專(zhuān)利權(quán))人: | 南京大學(xué) |
| 主分類(lèi)號(hào): | G06F17/30 | 分類(lèi)號(hào): | G06F17/30 |
| 代理公司: | 蘇州威世朋知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 32235 | 代理人: | 楊林潔 |
| 地址: | 210093 江*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 函數(shù)依賴(lài) 候選集 采樣 并行 驗(yàn)證 剪枝 發(fā)現(xiàn) 大規(guī)模數(shù)據(jù)集 分布式編碼 統(tǒng)計(jì)信息 采樣結(jié)果 候選函數(shù) 獲取數(shù)據(jù) 內(nèi)存占用 生成函數(shù) 驗(yàn)證結(jié)果 計(jì)算量 數(shù)據(jù)發(fā) 求解 排序 | ||
本發(fā)明公開(kāi)了一種大規(guī)模分布式函數(shù)依賴(lài)發(fā)現(xiàn)方法,包括以下步驟:第一步,并行地獲取數(shù)據(jù)集的統(tǒng)計(jì)信息、對(duì)屬性進(jìn)行排序和對(duì)數(shù)據(jù)進(jìn)行分布式編碼;第二步,依次選取屬性,將在該屬性上取值相同的數(shù)據(jù)發(fā)送到同一個(gè)節(jié)點(diǎn)上;第三步,在每個(gè)節(jié)點(diǎn)上進(jìn)行候選函數(shù)依賴(lài)發(fā)現(xiàn)。該過(guò)程可以分為以下兩步:第一步,并行地進(jìn)行采樣,利用采樣結(jié)果對(duì)候選集進(jìn)行剪枝和生成;第二步,并行地對(duì)候選集進(jìn)行驗(yàn)證,利用驗(yàn)證結(jié)果對(duì)候選集進(jìn)行剪枝和生成。每輪采樣和驗(yàn)證結(jié)束后均需根據(jù)其效率來(lái)決定是否進(jìn)行采樣和驗(yàn)證的切換。第四步,生成函數(shù)依賴(lài)結(jié)果。本發(fā)明可高效地實(shí)現(xiàn)分布式函數(shù)依賴(lài)發(fā)現(xiàn),解決現(xiàn)有函數(shù)依賴(lài)求解方法計(jì)算量大、內(nèi)存占用多、無(wú)法處理大規(guī)模數(shù)據(jù)集等問(wèn)題。
技術(shù)領(lǐng)域
本發(fā)明涉及函數(shù)依賴(lài)發(fā)現(xiàn)與并行計(jì)算技術(shù)領(lǐng)域,尤其涉及一種大規(guī)模分布式函數(shù)依賴(lài)發(fā)現(xiàn)方法。
背景技術(shù)
函數(shù)依賴(lài)是一種重要的元數(shù)據(jù)信息,在數(shù)據(jù)清理、知識(shí)發(fā)現(xiàn)、數(shù)據(jù)集成和模式規(guī)范化等領(lǐng)域都有著廣泛的應(yīng)用。但是函數(shù)依賴(lài)發(fā)現(xiàn)的計(jì)算復(fù)雜度非常高,相關(guān)的工作中并沒(méi)有太多并行化的分布式函數(shù)依賴(lài)發(fā)現(xiàn)方法,人們更側(cè)重于研究單機(jī)的函數(shù)依賴(lài)發(fā)現(xiàn)方法。前人提出的最優(yōu)單機(jī)函數(shù)依賴(lài)發(fā)現(xiàn)方法HyFD,雖然其性能基本上超越了所有其他單機(jī)算法,但事實(shí)證明,該方法在執(zhí)行過(guò)程中需要消耗大量的計(jì)算資源,主要是面向小規(guī)模、集中式存儲(chǔ)數(shù)據(jù)進(jìn)行函數(shù)依賴(lài)發(fā)現(xiàn),無(wú)法對(duì)大規(guī)模、分布式數(shù)據(jù)。在大數(shù)據(jù)的時(shí)代背景下,數(shù)據(jù)規(guī)模不斷增大,數(shù)據(jù)往往被分布存儲(chǔ)在多個(gè)節(jié)點(diǎn)上。此時(shí),在多個(gè)節(jié)點(diǎn)并行地運(yùn)行單機(jī)算法無(wú)法保證函數(shù)依賴(lài)發(fā)現(xiàn)的正確性。面對(duì)大數(shù)據(jù)的挑戰(zhàn),有人提出了將所有數(shù)據(jù)傳輸?shù)絾蝹€(gè)節(jié)點(diǎn)進(jìn)行函數(shù)依賴(lài)發(fā)現(xiàn)的方法,但該方法無(wú)法高效地利用計(jì)算資源,也不能進(jìn)行計(jì)算和存儲(chǔ)的水平擴(kuò)展。也有人提出了分布式大數(shù)據(jù)函數(shù)依賴(lài)發(fā)現(xiàn)的方法,旨在解決上述方法的擴(kuò)展性問(wèn)題,但是沒(méi)有一種能夠在行和列上擁有較好擴(kuò)展性的解決方案。因此,如何設(shè)計(jì)一個(gè)面向大規(guī)模數(shù)據(jù)的、高效的、行和列擴(kuò)展性好的函數(shù)依賴(lài)發(fā)現(xiàn)方法就成為了并行化方法設(shè)計(jì)的挑戰(zhàn)。
以往的相關(guān)工作中,有以HyFD算法為代表的單機(jī)函數(shù)依賴(lài)發(fā)現(xiàn)方法。首先,該方法對(duì)數(shù)據(jù)集進(jìn)行定制化的采樣,減少待處理數(shù)據(jù)的行數(shù),并利用采樣數(shù)據(jù)和列高效的算法對(duì)候選函數(shù)依賴(lài)進(jìn)行剪枝和生成。然后,將剩余的候選函數(shù)依賴(lài)在所有數(shù)據(jù)上進(jìn)行驗(yàn)證。這種方法的優(yōu)勢(shì)在于利用列高效的算法降低了候選函數(shù)依賴(lài)的數(shù)量,從而降低了行高效算法的驗(yàn)證時(shí)間。但該方法要求所有的輸入數(shù)據(jù)都存儲(chǔ)在單個(gè)節(jié)點(diǎn)上,且計(jì)算過(guò)程中生成的中間數(shù)據(jù)結(jié)構(gòu)能夠完全放入主存中,而單機(jī)的主存往往有限,所以該方法無(wú)法對(duì)大規(guī)模分布式數(shù)據(jù)進(jìn)行函數(shù)依賴(lài)發(fā)現(xiàn)。
目前較好的分布式函數(shù)依賴(lài)發(fā)現(xiàn)算法是HFDD,該方法基于數(shù)據(jù)重分布進(jìn)行函數(shù)依賴(lài)發(fā)現(xiàn),每次重分布將某個(gè)屬性取值相同的數(shù)據(jù)發(fā)送到同一個(gè)節(jié)點(diǎn)上,然后進(jìn)行驗(yàn)證。但該方法有以下不足:一是沒(méi)有考慮節(jié)點(diǎn)的負(fù)載均衡,如果取值較少的屬性被優(yōu)先用來(lái)重分布,該方法將無(wú)法充分利用集群資源,效率也會(huì)變得十分低下;二是沒(méi)有解決候選函數(shù)依賴(lài)過(guò)多的問(wèn)題;三是沒(méi)有高效的分布式驗(yàn)證方法。
發(fā)明內(nèi)容
發(fā)明目的:針對(duì)上述現(xiàn)有技術(shù)存在的問(wèn)題和不足,本發(fā)明的目的是提供一種在大規(guī)模、分布存儲(chǔ)數(shù)據(jù)上進(jìn)行函數(shù)依賴(lài)發(fā)現(xiàn)的方法,解決了現(xiàn)有方法資源利用率低、計(jì)算性能差和擴(kuò)展性較差等問(wèn)題。
技術(shù)方案:為實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明采用的技術(shù)方案為一種大規(guī)模分布式函數(shù)依賴(lài)發(fā)現(xiàn)方法,包括以下步驟:
(1)并行地獲取輸入數(shù)據(jù)的統(tǒng)計(jì)信息,根據(jù)統(tǒng)計(jì)信息對(duì)屬性進(jìn)行排序,根據(jù)統(tǒng)計(jì)信息和屬性排序結(jié)果對(duì)數(shù)據(jù)進(jìn)行分布式編碼;
(2)根據(jù)步驟(1)中的結(jié)果,分多輪執(zhí)行步驟(3)到步驟(4);
(3)根據(jù)步驟(1)的屬性排序結(jié)果,每次選取一個(gè)屬性并對(duì)步驟(1)中得到的編碼數(shù)據(jù)進(jìn)行重分布;
(4)根據(jù)步驟(3)的結(jié)果,分多輪執(zhí)行步驟(5)到步驟(6),每一輪對(duì)左部中包含被選屬性的所有候選函數(shù)依賴(lài)進(jìn)行發(fā)現(xiàn),直到左部包含該屬性的所有候選函數(shù)依賴(lài)被排除或者被驗(yàn)證;
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于南京大學(xué),未經(jīng)南京大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810367758.7/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種最小函數(shù)依賴(lài)的增量計(jì)算方法
- 一種基于函數(shù)依賴(lài)的數(shù)據(jù)清洗方法
- 基于屬性間依賴(lài)關(guān)系的網(wǎng)絡(luò)表格的實(shí)體列的檢測(cè)方法
- 數(shù)據(jù)庫(kù)一致性錯(cuò)誤的重要度判定方法
- 基于動(dòng)態(tài)指令依賴(lài)圖胎記的軟件局部抄襲檢測(cè)方法
- 一種解除程序模塊循環(huán)依賴(lài)的方法及系統(tǒng)
- 構(gòu)建函數(shù)前置依賴(lài)的方法及相關(guān)設(shè)備
- 一種依賴(lài)關(guān)系的生成方法及裝置
- 依賴(lài)包安全性檢測(cè)方法、裝置及存儲(chǔ)介質(zhì)
- 依賴(lài)關(guān)系的建立方法、聯(lián)動(dòng)編譯方法及其系統(tǒng)
- 一種基于本體詞法信息和語(yǔ)義信息的本體匹配方法
- 基于引用網(wǎng)絡(luò)及用戶(hù)熟練度分析的學(xué)術(shù)推薦方法及系統(tǒng)
- 用于二叉樹(shù)分割塊的確定候選集的方法及裝置
- 用于四叉樹(shù)加二叉樹(shù)拆分塊的候選集決定的方法與裝置
- 一種水聲傳感器網(wǎng)絡(luò)機(jī)會(huì)路由候選集生成方法
- 計(jì)算機(jī)執(zhí)行的集成模型的確定方法及裝置
- 使用預(yù)測(cè)子候選列表進(jìn)行視頻編碼和解碼的方法和裝置
- 上行資源的授權(quán)方法、裝置及系統(tǒng)
- MPDCCH搜索空間的起始位置確定方法及裝置
- 基于流式數(shù)據(jù)的自動(dòng)化層級(jí)探索方法和裝置
- 簡(jiǎn)單網(wǎng)絡(luò)管理協(xié)議設(shè)備的數(shù)據(jù)并行采集歸并方法及系統(tǒng)
- 減少EMI的并行數(shù)據(jù)傳輸方法
- 一種多媒體數(shù)據(jù)并行處理系統(tǒng)及方法
- 一種高速并行OQPSK解調(diào)時(shí)鐘的恢復(fù)系統(tǒng)
- 一種海量地震數(shù)據(jù)并行抽道集方法
- 3G協(xié)議的turbo碼并行譯碼方法及裝置
- 并行擴(kuò)展輸入輸出的教學(xué)裝置
- 數(shù)據(jù)的并行處理
- 并行式插件機(jī)
- 一種SPI總線(xiàn)與并行總線(xiàn)的橋接方法、設(shè)備、系統(tǒng)及介質(zhì)





