[發(fā)明專利]基于云計算的金融數據挖掘方法無效
| 申請?zhí)枺?/td> | 201310536760.X | 申請日: | 2013-11-04 |
| 公開(公告)號: | CN103559642A | 公開(公告)日: | 2014-02-05 |
| 發(fā)明(設計)人: | 向陽;羅成;張依楊;張波;袁書寒 | 申請(專利權)人: | 同濟大學 |
| 主分類號: | G06Q40/00 | 分類號: | G06Q40/00;G06F17/30 |
| 代理公司: | 上海東亞專利商標代理有限公司 31208 | 代理人: | 陳樹德;劉瑩 |
| 地址: | 200092 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 計算 金融 數據 挖掘 方法 | ||
技術領域
本發(fā)明涉及一種分布式的金融數據挖掘方法,尤其是處理大數據下快速聚類的基于云計算的金融數據挖掘方法。
背景技術
隨著Internet迅速發(fā)展,WWW(World?Wide?Web簡稱WWW)已成為一個巨大的信息空間,為用戶提供了極具價值的信息資源。而面對大量的金融財務數據資源,如何分析處理成為至關重要的問題。一種常用的方法是將高維數據降維至二維并進行可視化處理,并以此幫助決策者進行決策分析。
自組織神經網絡SOM(self-organization?mapping?net)是基于無監(jiān)督學習方法的神經網絡的一種重要類型。自組織映射網絡理論最早是由芬蘭赫爾辛基理工大學Kohen于1981年提出的。此后,伴隨著神經網絡在20世紀80年代中后期的迅速發(fā)展,自組織映射理論及其應用也有了長足的進步。
它是一種無指導的聚類方法。它模擬人腦中處于不同區(qū)域的神經細胞分工不同的特點,即不同區(qū)域具有不同的響應特征,而且這一過程是自動完成的。自組織映射網絡通過尋找最優(yōu)參考矢量集合來對輸入模式集合進行分類。每個參考矢量為一輸出單元對應的連接權向量。與傳統(tǒng)的模式聚類方法相比,它所形成的聚類中心能映射到一個曲面或平面上,而保持拓撲結構不變。對于未知聚類中心的判別問題可以用自組織映射來實現。
自組織神經網絡是神經網絡最富有魅力的研究領域之一,它能夠通過其輸入樣本學會檢測其規(guī)律性和輸入樣本相互之間的關系,并且根據這些輸入樣本的信息自適應調整網絡,使網絡以后的響應與輸入樣本相適應。競爭型神經網絡的神經元通過輸入信息能夠識別成組的相似輸入向量;自組織映射神經網絡通過學習同樣能夠識別成組的相似輸入向量,使那些網絡層中彼此靠得很近的神經元對相似的輸入向量產生響應。與競爭型神經網絡不同的是,自組織映射神經網絡不但能學習輸入向量的分布情況,還可以學習輸入向量的拓撲結構,其單個神經元對模式分類不起決定性作用,而要靠多個神經元的協(xié)同作用才能完成模式分類。
學習向量量化LVQ(learning?vector?quantization)是一種用于訓練競爭層的有監(jiān)督學習(supervised?learning)方法。競爭層神經網絡可以自動學習對輸入向量模式的分類,但是競爭層進行的分類只取決于輸入向量之間的距離,當兩個輸入向量非常接近時,競爭層就可能把它們歸為一類。在競爭層的設計中沒有這樣的機制,即嚴格按地區(qū)判斷任意兩個輸入向量是屬于同一類還是屬于不同類。而對于LVQ網絡用戶指定目標分類結果,網絡可以通過監(jiān)督學習,完成對輸入向量模式的準確分類。
發(fā)明內容
本發(fā)明所要解決的技術問題是要提供一種利用自組織神經網絡特性,對數據降維并聚類處理,可視化的基于云計算的金融數據挖掘方法。
為了解決以上的技術問題,本發(fā)明提供了一種基于云計算的金融數據挖掘方法,該方法包括以下步驟:
1)對原始數據進行數據遷移、清理等預處理操作;
2)根據原始數據的數據量和維度確定神經元的分布網格的結構;
3)利用處理好的數據和神經元網格結構進行適應性訓練;
4)利用上述數據及適應性訓練的結果進行收斂性訓練;
5)利用上述訓練結果對數據進行離散化處理及可視化處理。
所述的步驟1)的數據預處理操作包括以下步驟:
11)將原始數據統(tǒng)一轉換為csv格式文檔;
12)對上述文檔中的缺失數據進行填補,空缺值用該屬性平均值替代;
所述的步驟2)中的神經元網格結構為二維矩形格,其數量為樣本數的1%;二維矩形格中神經元的距離為歐式距離。
所述步驟3)包含以下步驟:
31)設置初始鄰域范圍為2)中網格的半徑;
32)設置鄰域收縮系數與初始鄰域常數的關系為:????????????????????????????????????????????????,其中為初始鄰域范圍,為收縮系數;
33)設置學習步長初始值及步長收縮常數;
34)計算每步循環(huán)時學習步長及鄰域函數,它們的計算公式為:
其中為網格中兩節(jié)點和的距離;
35)將樣本依次輸入,并對每個輸入樣本計算勝利元,即距離該樣本歐式距離最小的神經元;
36)對權重進行更新,即第個神經元的權重更新公式為:
37)上述每個樣本至少要循環(huán)輸入1000次。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于同濟大學,未經同濟大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310536760.X/2.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
- 數據顯示系統(tǒng)、數據中繼設備、數據中繼方法、數據系統(tǒng)、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發(fā)送方法、數據發(fā)送系統(tǒng)、數據發(fā)送裝置以及數據結構
- 數據顯示系統(tǒng)、數據中繼設備、數據中繼方法及數據系統(tǒng)
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發(fā)送和數據接收設備、數據發(fā)送和數據接收方法
- 數據發(fā)送裝置、數據接收裝置、數據收發(fā)系統(tǒng)、數據發(fā)送方法、數據接收方法和數據收發(fā)方法
- 數據發(fā)送方法、數據再現方法、數據發(fā)送裝置及數據再現裝置
- 數據發(fā)送方法、數據再現方法、數據發(fā)送裝置及數據再現裝置





