[發(fā)明專(zhuān)利]大數(shù)據(jù)優(yōu)化分析方法在審
| 申請(qǐng)?zhí)枺?/td> | 201710358005.5 | 申請(qǐng)日: | 2017-05-19 |
| 公開(kāi)(公告)號(hào): | CN107193940A | 公開(kāi)(公告)日: | 2017-09-22 |
| 發(fā)明(設(shè)計(jì))人: | 賴(lài)真霖;文君 | 申請(qǐng)(專(zhuān)利權(quán))人: | 成都四象聯(lián)創(chuàng)科技有限公司 |
| 主分類(lèi)號(hào): | G06F17/30 | 分類(lèi)號(hào): | G06F17/30 |
| 代理公司: | 北京天奇智新知識(shí)產(chǎn)權(quán)代理有限公司11340 | 代理人: | 楊春 |
| 地址: | 611730 四川省成都市高新區(qū)*** | 國(guó)省代碼: | 四川;51 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 數(shù)據(jù) 優(yōu)化 分析 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)計(jì)算,特別涉及一種大數(shù)據(jù)優(yōu)化分析方法。
背景技術(shù)
云計(jì)算技術(shù)擁有分布式計(jì)算,超大規(guī)模,虛擬化,高可靠性,高彈性,可擴(kuò)展,按需服務(wù)等特點(diǎn),能夠?yàn)榇髷?shù)據(jù)處理提供更為高效的分析以及更好的計(jì)算能力。針對(duì)大數(shù)據(jù)處理中的數(shù)以億計(jì)的小文件處理,需要分布式存儲(chǔ)系統(tǒng)和索引系統(tǒng)來(lái)為網(wǎng)頁(yè)和郵件等文件提供存儲(chǔ)支持。隨著大量小文本文件處理的應(yīng)用需求,不同信息系統(tǒng)中存在著大量異構(gòu)數(shù)據(jù)源;數(shù)據(jù)缺乏統(tǒng)一的規(guī)范化組織方法;在某些領(lǐng)域,大量小文本文件難以有效分析和高效存儲(chǔ)與檢索。
發(fā)明內(nèi)容
為解決上述現(xiàn)有技術(shù)所存在的問(wèn)題,本發(fā)明提出了一種大數(shù)據(jù)優(yōu)化分析方法,包括:
以K維空間數(shù)據(jù)集劃分的樹(shù)構(gòu)建文件索引樹(shù)形結(jié)構(gòu)的主干,判斷K維樹(shù)是否為空,若為空則直接作為根節(jié)點(diǎn);否則比較該點(diǎn)與K維樹(shù)根節(jié)點(diǎn)相應(yīng)維的值的大小關(guān)系,進(jìn)入其左、右子樹(shù)進(jìn)行下一步操作;若該點(diǎn)小于根節(jié)點(diǎn)相應(yīng)維的值,則進(jìn)入左子樹(shù)進(jìn)行查找操作直至某個(gè)節(jié)點(diǎn)的左子樹(shù)或右子樹(shù)為空;則將該點(diǎn)插入作為其葉子節(jié)點(diǎn);若該點(diǎn)大于根節(jié)點(diǎn)相應(yīng)維的值,則進(jìn)入右子樹(shù)進(jìn)行插入操作;然后,在該K維樹(shù)的葉子節(jié)點(diǎn)上加載位置敏感散列結(jié)構(gòu),即將剩余的點(diǎn)放置入位置敏感散列中;將數(shù)據(jù)集X轉(zhuǎn)化為空間中的二進(jìn)制串;預(yù)先選取參數(shù)r>0,c>1,隨機(jī)選取K個(gè)散列函數(shù);利用這些散列函數(shù)將數(shù)據(jù)點(diǎn)存入相應(yīng)的散列表中;
基于上述文件索引結(jié)構(gòu),對(duì)小文本文件進(jìn)行合并,設(shè)有多個(gè)文件A1,A2…An,其中Ai=ai1,ai2,…,aik…,且aik為文件名的第k個(gè)字符,具體步驟為:
步驟1,對(duì)輸入的字符串Ai,i=l,2,...n找到aik=‘.’,截取aik后面的所有字符,統(tǒng)計(jì)這個(gè)塊中具有此類(lèi)文件的個(gè)數(shù),記為mij;依次計(jì)算同一節(jié)點(diǎn)中每一塊所包含的此類(lèi)文件的個(gè)數(shù),得到序列mi1,mi2,...min,求mi=∑mij;表示這個(gè)節(jié)點(diǎn)中包含的擴(kuò)展名的類(lèi)別;j=0,1,…,n;
步驟2.計(jì)算這個(gè)節(jié)點(diǎn)中存放的所有小文本文件的數(shù)目M,獲取小文本文件在分類(lèi)過(guò)程中設(shè)置的權(quán)值;
步驟3.求解每個(gè)類(lèi)型文件所占的比例mi/M,按比例從大到小排序;形成的擴(kuò)展名列表在datanode中維護(hù);
步驟4.統(tǒng)計(jì)這個(gè)節(jié)點(diǎn)上的mi中的根節(jié)點(diǎn),形成根節(jié)點(diǎn)列表;在每個(gè)擴(kuò)展名中都有一個(gè)根節(jié)點(diǎn)列表,此列表在datanode中維護(hù);
步驟5.根據(jù)待放置的塊所在的Reduce任務(wù),得到此塊的擴(kuò)展名;
步驟6.讀取待放置的塊的根節(jié)點(diǎn),設(shè)置根節(jié)點(diǎn)列表,按照權(quán)值相似度最大原則對(duì)根進(jìn)行排序;
步驟7.選擇此塊中排在第一位的根;
步驟8.在集群中找到擴(kuò)展名所占比例最大的節(jié)點(diǎn);在其中查找此根,如果存在,放置此塊;
步驟9.將此節(jié)點(diǎn)從候選列表中排除,然后判斷列表是否為空;不為空,轉(zhuǎn)步驟8;
步驟10.將此根從根的列表中排除,判斷根的列表是否為空;若不為空,轉(zhuǎn)步驟7;若為空,隨機(jī)存放在有此擴(kuò)展名的節(jié)點(diǎn)上。
優(yōu)選地,
本發(fā)明相比現(xiàn)有技術(shù),具有以下優(yōu)點(diǎn):
本發(fā)明提出了一種大數(shù)據(jù)優(yōu)化分析方法,基于改進(jìn)的分布式處理架構(gòu)將來(lái)自不同異構(gòu)源的多種小文件進(jìn)行統(tǒng)一規(guī)范組織,便于高效存儲(chǔ)、分析與檢索。
附圖說(shuō)明
圖1是根據(jù)本發(fā)明實(shí)施例的大數(shù)據(jù)優(yōu)化分析方法的流程圖。
具體實(shí)施方式
下文與圖示本發(fā)明原理的附圖一起提供對(duì)本發(fā)明一個(gè)或者多個(gè)實(shí)施例的詳細(xì)描述。結(jié)合這樣的實(shí)施例描述本發(fā)明,但是本發(fā)明不限于任何實(shí)施例。本發(fā)明的范圍僅由權(quán)利要求書(shū)限定,并且本發(fā)明涵蓋諸多替代、修改和等同物。在下文描述中闡述諸多具體細(xì)節(jié)以便提供對(duì)本發(fā)明的透徹理解。出于示例的目的而提供這些細(xì)節(jié),并且無(wú)這些具體細(xì)節(jié)中的一些或者所有細(xì)節(jié)也可以根據(jù)權(quán)利要求書(shū)實(shí)現(xiàn)本發(fā)明。
本發(fā)明的一方面提供了一種大數(shù)據(jù)優(yōu)化分析方法。圖1是根據(jù)本發(fā)明實(shí)施例的大數(shù)據(jù)優(yōu)化分析方法流程圖。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于成都四象聯(lián)創(chuàng)科技有限公司,未經(jīng)成都四象聯(lián)創(chuàng)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710358005.5/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 上一篇:帶墊布的海灘遮陽(yáng)傘
- 下一篇:具有擴(kuò)展功能的箱包
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





