[發明專利]一種基于SVD的高斯混合模型參數初始化方法在審
| 申請號: | 202010131033.5 | 申請日: | 2020-02-28 |
| 公開(公告)號: | CN111340119A | 公開(公告)日: | 2020-06-26 |
| 發明(設計)人: | 許艷萍;仇建;張君;葉挺聰;張靈均;陸澄澹;張樺;吳以凡;陳政 | 申請(專利權)人: | 杭州電子科技大學;浙江省電子信息產品檢驗研究院 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 杭州君度專利代理事務所(特殊普通合伙) 33240 | 代理人: | 楊舟濤 |
| 地址: | 310018 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 svd 混合 模型 參數 初始化 方法 | ||
1.一種基于SVD的高斯混合模型參數初始化方法,其特征在于,該方法具體包括以下步驟:
步驟一:針對海量高維網絡流量數據集X,包含N個樣本,數據維度為D,數據集合分為K個類別,包括正常流量種類和威脅流量種類;利用SVD技術分解數據矩陣X,X=USVT;
其中,U是N×N的正交矩陣,也稱為左奇異矩陣;S是N×D的對角奇異值矩陣,其對角線上的元素為X的奇異值,并按照從大到小的降序排列;VT是D×D的正交矩陣,是V的轉置,也稱為右奇異矩陣;
步驟二:針對網絡流量數據集X,采用GMM建立模型刻畫數據特點,GMM的模型分量數與數據集X的流量類別數相等,因此,根據奇異值矩陣得到GMM的模型分量數初始值;
利用奇異值矩陣元素下降趨勢、前N個元素之和代表奇異值矩陣大部分信息以及數據矩陣的維度,進而確定奇異值矩陣中保留的奇異值元素數目,將其作為原始數據矩陣的初始聚類數;由于每一個聚類數據由一個GMM分量描述,則初始聚類數與模型分量數相等,得到GMM模型分量數的初始值;
步驟三:根據左奇異矩陣得到網絡流量數據集X的初始聚類子集,從而實現將網絡流量數據集初步劃分到多個類別聚類,同時,得到每個GMM模型分量的初始數據集合;
在確定奇異值矩陣中保留的奇異值元素數目之后,能夠確定奇異值矩陣的規模,對應地確定左奇異矩陣的規模;在左奇異矩陣中,查找每一列數據中的最大值,并將最大值對應的列序號相同的原始數據聚為一類,實現將數據集的初始聚類;
步驟四:根據初始聚類子集,得到GMM的每個模型分量混合系數,用于表示GMM模型對每個網絡流量數據聚類的刻畫權重;
GMM模型分量混合系數表示初始聚類子集中的數據被聚類到相應模型分量的概率,因此將每個模型分量描述的初始聚類中子集的長度與原始數據集的長度比值,作為每個模型分量混合系數的初始值。
2.根據權利要求1所述的一種基于SVD的高斯混合模型參數初始化方法,其特征在于:所述的根據奇異值矩陣得到GMM的模型分量數初始值,根據左奇異矩陣得到原始流量數據集的初始聚類子集,即初始把流量數據集分為正常類別集合和威脅類別集合,具體為:
由于S中對角線元素si按照從大到小的降序排列,保留最大兩個奇異值元素代替奇異值矩陣的全部信息,作為奇異值矩陣S的近似矩陣S';另外,S矩陣的維度也與元素的下降趨勢有關;因此,定義保留的奇異值矩陣的元素數量K'為
其中,代表對數據向上取整;當保留的奇異值矩陣的元素數量確定,即能夠確定奇異值近似矩陣S'的規模為K'×K',對應地,保留U的前K'列數據;然后,查找U中的前K'列數據中每一列的最大值,并將最大值對應的列序號相同的數據聚為一類,實現將數據集X的初始聚類,聚類數為K';由于每一類數據由一個GMM分量描述,則初始聚類數K'與模型分量數K相等,得到GMM模型分量數的初始值。
3.根據權利要求1所述的一種基于SVD的高斯混合模型參數初始化方法,其特征在于:
根據初始聚類子集,得到GMM的每個模型分量混合系數,具體為:
原始數據集被分成了K個初始聚類,每個聚類中包含的數據子集為{Xk},k=1,2,…,K,第k個子集的長度為len(Xk);
對GMM分量的混合系數πk初始化,πk表示數據被聚類到第k個模型分量的概率,每個分量的混合系數與初始聚類中子集的長度以及數據集總長度有關,因此,定義第k個混合系數初始值為
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州電子科技大學;浙江省電子信息產品檢驗研究院,未經杭州電子科技大學;浙江省電子信息產品檢驗研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010131033.5/1.html,轉載請聲明來源鉆瓜專利網。





