[發明專利]一種數據挖掘方法和裝置、一種可讀介質和存儲控制器在審
| 申請號: | 201710273242.1 | 申請日: | 2017-04-24 |
| 公開(公告)號: | CN107038244A | 公開(公告)日: | 2017-08-11 |
| 發明(設計)人: | 高洪濤;胡建斌;白志凌 | 申請(專利權)人: | 北京北信源軟件股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F9/50;G06K9/62 |
| 代理公司: | 北京東正專利代理事務所(普通合伙)11312 | 代理人: | 劉瑜冬 |
| 地址: | 100081 北京市海淀區中關村*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據 挖掘 方法 裝置 可讀 介質 存儲 控制器 | ||
1.一種數據挖掘方法,其特征在于,該方法包括:
將原始數據存儲于分布式文件系統HDFS上,并分配到至少一個數據節點上;
將具有M維特征向量的原始數據進行降維處理,形成具有m維特征向量的低維數據,其中M>m;
按照預設比例,在每一個數據節點上將低維數據劃分為訓練數據和測試數據;
在每一個數據節點上對訓練數據進行訓練,獲得多層感知器分類模型;
利用上述的多層感知器分類模型對測試數據進行預測,確定多層感知器分類模型的預測準確性并實現數據挖掘。
2.根據權利要求1所述的數據挖掘方法,其特征在于,在每一個數據節點上將低維數據劃分為訓練數據和測試數據之后,進一步包括:
在每一個數據節點上將訓練數據組成訓練數據集,以及將測試數據組成測試數據集;
在每一個數據節點上對訓練數據進行訓練,獲得多層感知器分類模型之前,進一步包括:
通用并行框架Spark平臺從HDFS中讀取每一個數據節點上的訓練數據集;
Spark平臺將讀取的每一個訓練數據集轉換為彈性分布式數據集RDD對象;
Spark平臺將每一個RDD對象存儲在內存中;
在每一個數據節點上對訓練數據進行訓練,獲得多層感知器分類模型,包括:
Spark平臺將RDD對象分配到數據節點上進行訓練,獲得多層感知器分類模型。
3.根據權利要求2所述的數據挖掘方法,其特征在于,Spark平臺將RDD對象分配到數據節點上進行訓練,獲得多層感知器分類模型,包括:
通過Pipelining技術將訓練執行流程分解為多個工作階段;
將每一個工作階段分配到數據節點上;
在數據節點上執行每一個工作階段,獲得多層感知器分類模型。
4.根據1至4任一權利要求所述的數據挖掘方法,其特征在于,在每一個數據節點上對訓練數據進行訓練,獲得多層感知器分類模型,具體過程包括:
設定訓練參數t,初始化權值ω(0),其中t=0,ω(0)為小的隨機數;
對于訓練數據執行下述訓練:
S1:對訓練數據進行計算,從輸入層經過隱含層到達輸出層獲得各層輸出值
S2:對輸出層計算訓練誤差δ:
S3:從輸出層向輸入層計算隱含層的訓練誤差δ:
S4:計算并保存各個加權值的修正量其中,γ為動量項的學習率;
S5:修正加權值:ωij(t+1)=ωij(t)+Δωij;
S6:判斷當前訓練數據t是否收斂性,若是,則結束訓練,否則,將訓練數據t+1作為當前訓練數據,執行S1。
5.一種數據挖掘裝置,其特征在于,該裝置包括:分配單元、降維單元、劃分單元、訓練單元和挖掘單元,其中,
分配單元,用于將原始數據存儲于分布式文件系統HDFS上,并分配到至少一個數據節點上;
降維單元,用于將具有M維特征向量的原始數據進行降維處理,形成具有m維特征向量的低維數據,其中M>m;
劃分單元,用于按照預設比例,在每一個數據節點上將低維數據劃分為訓練數據和測試數據;
訓練單元,用于在每一個數據節點上對訓練數據進行訓練,獲得多層感知器分類模型;
挖掘單元,用于利用上述的多層感知器分類模型對測試數據進行預測,確定多層感知器分類模型的預測準確性并實現數據挖掘。
6.根據權利要求5所述的數據挖掘裝置,其特征在于,該裝置進一步包括:集合單元和通用并行框架Spark平臺,其中,
集合單元,用于在每一個數據節點上訓練數據組成訓練數據集,以及測試數據組成測試數據集;
Spark平臺,用于從HDFS中讀取每一個數據節點上的訓練數據集、將讀取的每一個訓練數據集轉換為彈性分布式數據集RDD對象以及將每一個RDD對象存儲在內存中;
訓練單元,具體用于通過Spark平臺將RDD對象分配到數據節點上進行訓練,獲得多層感知器分類模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京北信源軟件股份有限公司,未經北京北信源軟件股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710273242.1/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





