[發明專利]基于圖形處理單元的自組織映射神經網絡聚類方法及系統在審
| 申請號: | 201310112420.4 | 申請日: | 2013-04-01 |
| 公開(公告)號: | CN103488662A | 公開(公告)日: | 2014-01-01 |
| 發明(設計)人: | 葉允明;張金超;黃曉輝 | 申請(專利權)人: | 哈爾濱工業大學深圳研究生院 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 深圳市科吉華烽知識產權事務所(普通合伙) 44248 | 代理人: | 胡吉科;孫偉 |
| 地址: | 518000 廣東省深*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 圖形 處理 單元 組織 映射 神經網絡 方法 系統 | ||
1.一種基于圖形處理單元的并行化自組織映射神經網絡聚類方法,包括如下步驟:
并行關鍵詞詞頻統計:將文本內容進行分詞并得到關鍵詞的集合,并行統計文檔中關鍵詞的頻率,得到詞頻矩陣;
并行特征向量計算:把關鍵詞詞頻矩陣轉化為對應的特征向量矩陣,每個特征向量代表一個文檔;
并行SOM聚類:根據特征向量矩陣設計SOM網絡結構,初始化SOM網絡,并行計算輸入樣本與全部輸出神經元權向量距離,?比較各個距離的大小,獲取最小距離的最佳神經元J,通過更新最佳神經元、其鄰域內的神經元權向量值、學習率及最佳神經元的鄰域大小,然后通過圖形處理單元并行計算網絡誤差率Et,若網絡誤差率Et<=目標誤差ε或迭代次數t>=訓練最大迭代次數T,則SOM網絡訓練結束,否則重新進行新一輪訓練;每次學習的結果使得最佳匹配神經元的鄰域區域向輸入數據向量值靠近,把距離相近的輸入特征向量聚集成同一個簇,形成的簇集合即為最終的聚類結果。
2.根據權利要求1所述基于圖形處理單元的自組織映射神經網絡聚類方法,其特征在于,在獲取文檔的關鍵詞詞頻步驟中,采用基于圖形處理單元的多線程并行統計詞頻。
3.根據權利要求1所述基于圖形處理單元的自組織映射神經網絡聚類方法,其特征在于,在并行特征向量計算步驟中,采用基于圖形處理的的多線程并行計算每個文檔的特征向量。
4.根據權利要求1所述基于圖形處理單元的自組織映射神經網絡聚類方法,其特征在于,輸入特征向量與每個輸出神經元權向量距離的計算過程相互獨立,采用基于圖形處理的多個線程并行計算輸入特征向量與每個輸出神經元向量的距離,系統為每個神經元開啟一個線程,采用多線程并行計算。
5.根據權利要求1所述基于圖形處理單元的自組織映射神經網絡聚類方法,其特征在于,每個神經元相鄰兩次迭代的權向量誤差的計算過程相互獨立,采用基于圖形處理的多個線程并行計算每個神經元的權向量誤差,系統為每個神經元開啟一個線程,采用多線程并行計算。
6.一種基于圖形處理單元的自組織映射神經網絡聚類系統,其特征在于,包括硬件部分和軟件部分,硬件部分:采用CPU/GPU協作框架設計,串行執行代碼運行在CPU上,并行執行代碼運行在GPU上,通過GPU提供的數據傳輸方式來交換顯存與內存之間的數據;軟件部分分為三個模塊,包括并行化關鍵詞詞頻統計模塊、并行化特征向量計算模塊、并行化SOM聚類模塊,單元、計算特征向量的特征向量計算單元、進行文本聚類的文本聚類單元,所述并行化關鍵詞詞頻統計模塊將文本內容進行分詞并得到關鍵詞的集合,并行統計文檔中關鍵詞的頻率,得到詞頻矩陣;所述并行化特征向量計算模塊把關鍵詞詞頻矩陣轉化為對應的特征向量矩陣,每個特征向量代表一個文檔;所述并行化SOM聚類模塊根據特征向量矩陣設計SOM網絡結構,初始化SOM網絡,并行計算輸入樣本與全部輸出神經元權向量距離,?比較各個距離的大小,獲取最小距離的最佳神經元J,通過更新最佳神經元、其鄰域內的神經元權向量值、學習率及最佳神經元的鄰域大小,然后通過圖形處理單元并行計算網絡誤差率Et,若網絡誤差率Et<=目標誤差ε或迭代次數t>=訓練最大迭代次數T,則SOM網絡訓練結束,否則重新進行新一輪訓練;每次學習的結果使得最佳匹配神經元的鄰域區域向輸入數據向量值靠近,把距離相近的輸入特征向量聚集成同一個簇,形成的簇集合即為最終的聚類結果。
7.根據權利要求6所述基于圖形處理單元的并行化自組織映射神經網絡的聚類系統,其特征在于,所述并行化關鍵詞詞頻統計模塊、所述并行化特征向量計算模塊以及所述并行化SOM聚類模塊中均設計了若干個核函數來并行加速算法的運行。
8.?根據權利要求6所述基于圖形處理單元的并行化自組織映射神經網絡的聚類系統,?其特征在于,在并行關鍵詞詞頻統計模塊中,設計了一個用于關鍵詞詞頻統計的核函數;在并行特征向量計算模塊中,設計了兩個用于特征向量計算的核函數和兩個用于特征向量歸一化的核函數。
9.?根據權利要求6所述基于圖形處理單元的并行化自組織映射神經網絡的聚類系統,?其特征在于,在并行SOM聚類模塊中,設計了一個用于計算輸入特征向量與輸出神經元的距離的核函數,一個用于計算每個神經元相鄰兩次迭代的網絡權向量的誤差的核函數和一個用于規約網絡權向量的誤差的核函數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學深圳研究生院,未經哈爾濱工業大學深圳研究生院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310112420.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:絕緣操作桿
- 下一篇:一種瀏覽云端海量數據的方法及裝置





