[發明專利]大數據優化分析方法在審
| 申請號: | 201710358005.5 | 申請日: | 2017-05-19 |
| 公開(公告)號: | CN107193940A | 公開(公告)日: | 2017-09-22 |
| 發明(設計)人: | 賴真霖;文君 | 申請(專利權)人: | 成都四象聯創科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京天奇智新知識產權代理有限公司11340 | 代理人: | 楊春 |
| 地址: | 611730 四川省成都市高新區*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據 優化 分析 方法 | ||
1.一種大數據優化分析方法,用于在云計算環境下處理小文件,其特征在于,包括:
以K維空間數據集劃分的樹構建文件索引樹形結構的主干,判斷K維樹是否為空,若為空則直接作為根節點;否則比較該點與K維樹根節點相應維的值的大小關系,進入其左、右子樹進行下一步操作;若該點小于根節點相應維的值,則進入左子樹進行查找操作直至某個節點的左子樹或右子樹為空;則將該點插入作為其葉子節點;若該點大于根節點相應維的值,則進入右子樹進行插入操作;然后,在該K維樹的葉子節點上加載位置敏感散列結構,即將剩余的點放置入位置敏感散列中;將數據集X轉化為空間中的二進制串;預先選取參數r>0,c>1,隨機選取K個散列函數;利用這些散列函數將數據點存入相應的散列表中;
基于上述文件索引結構,對小文本文件進行合并,設有多個文件A1,A2…An,其中Ai=ai1,ai2,…,aik…,且aik為文件名的第k個字符,具體步驟為:
步驟1,對輸入的字符串Ai,i=l,2,...n找到aik=‘.’,截取aik后面的所有字符,統計這個塊中具有此類文件的個數,記為mij;依次計算同一節點中每一塊所包含的此類文件的個數,得到序列mi1,mi2,...min,求mi=∑mij;表示這個節點中包含的擴展名的類別;j=0,1,…,n;
步驟2.計算這個節點中存放的所有小文本文件的數目M,獲取小文本文件在分類過程中設置的權值;
步驟3.求解每個類型文件所占的比例mi/M,按比例從大到小排序;形成的擴展名列表在datanode中維護;
步驟4.統計這個節點上的mi中的根節點,形成根節點列表;在每個擴展名中都有一個根節點列表,此列表在datanode中維護;
步驟5.根據待放置的塊所在的Reduce任務,得到此塊的擴展名;
步驟6.讀取待放置的塊的根節點,設置根節點列表,按照權值相似度最大原則對根進行排序;
步驟7.選擇此塊中排在第一位的根;
步驟8.在集群中找到擴展名所占比例最大的節點;在其中查找此根,如果存在,放置此塊;
步驟9.將此節點從候選列表中排除,然后判斷列表是否為空;不為空,轉步驟8;
步驟10.將此根從根的列表中排除,判斷根的列表是否為空;若不為空,轉步驟7;若為空,隨機存放在有此擴展名的節點上。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都四象聯創科技有限公司,未經成都四象聯創科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710358005.5/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





