[發明專利]一種基于SVD的高斯混合模型參數初始化方法在審
| 申請號: | 202010131033.5 | 申請日: | 2020-02-28 |
| 公開(公告)號: | CN111340119A | 公開(公告)日: | 2020-06-26 |
| 發明(設計)人: | 許艷萍;仇建;張君;葉挺聰;張靈均;陸澄澹;張樺;吳以凡;陳政 | 申請(專利權)人: | 杭州電子科技大學;浙江省電子信息產品檢驗研究院 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 杭州君度專利代理事務所(特殊普通合伙) 33240 | 代理人: | 楊舟濤 |
| 地址: | 310018 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 svd 混合 模型 參數 初始化 方法 | ||
本發明公開了一種基于SVD的高斯混合模型參數初始化方法,包括計算模型分量的初始值,每個模型分量的混合系數、均值和協方差。本發明所屬技術領域為大數據分析和建模領域,在采用GMM建立概率聚類模型之后,采用SVD分解數據矩陣,實現對數據集合的初始分類,得到模型分量初始值;再針對分類子集計算混合系數、均值和協方差,作為GMM模型的各參數初始值。本發明提出的基于SVD初始化方法,不僅不依賴人為主觀性和系統隨機性,能夠通過算法客觀、自動地計算出參數的初始值,而且計算復雜度較低、消耗的時間和系統資源較少,還對不同應用場景的數據分析和建模具有較強的適應性。
技術領域
本發涉及到大數據分析和建模領域,尤其是涉及到一種高斯混合模型的參數初始化方法。
背景技術
在數據驅動的人工智能時代,大數據分析和建模技術占有重要地位。當匯聚的海量數據在沒有標記或者標記代價太昂貴的情況下,無監督聚類算法為解決此類問題提供了可靠的解決方案。其中,高斯混合模型(Gaussian Mixture Models,GMM)利用組合高斯概率密度函數能夠精準刻畫數據高斯分布的特點,根據數據分屬不同的模型分量,實現數據的聚類,以及異常模式數據的識別。GMM數學模型中包含多個參數,如模型分量數、模型混合系數、均值和協方差,在參數求解過程中,最常用的方法是最大期望(ExpectationMaximization,EM)算法和變分推斷(Variational Inference,VI)方法。然而,這兩種方法都對參數的初始值比較敏感,合理的參數初始值有利于模型快速收斂到最優值。在現有的EM和VI參數推理過程中,常用的初始值設置方式包括隨機初始化法、固定值初始化法、聚類初始化法等。從數據集中隨機選擇一個或多個數據作為參數初始值的缺點是隨機性較強,導致GMM聚類的結果不固定,且有可能達不到最優;將固定值作為參數初始值的缺點是主觀性較強,導致GMM聚類的結果達不到最優;而將聚類算法的結果作為參數初始值,一方面聚類過程增加了參數求解的復雜度,另一方面,像Kmeans聚類算法需要輸入一些參數初始值,仍然沒有解決參數初始值根據數據特點自適應設置的問題。
因此,為了解決GMM參數初始值自適應設置問題,本發明提出了一種基于SVD的高斯混合模型參數初始化方法,利用SVD技術分解數據矩陣,對數據集進行初始聚類,確定GMM模型分量數的初始值,進而確定GMM模型混合系數、均值和協方差初始值,再基于EM和VI算法推理出GMM模型參數的最優值。
發明內容
本發明為了克服現有技術的不足,本發明提供了一種基于SVD的高斯混合模型參數初始化方法。
在數據驅動的人工智能時代,大規模數據的采集和分析成為一種有效的技術手段,而在網絡安全領域,通過網絡流量大數據的分析和建模,實現網絡威脅的檢測和預測,具有重要意義。在針對海量高維網絡流量大數據建立高斯混合模型檢測網絡中的威脅時,提出一種基于SVD的高斯混合模型參數初始化方法。本發明采用的技術方案是:步驟一:針對海量高維網絡流量數據集X,包含N個樣本,數據維度為D,數據集合分為K個類別,包括正常流量種類和威脅流量種類;利用SVD技術分解數據矩陣X,X=USVT;
其中,U是N×N的正交矩陣,也稱為左奇異矩陣;S是N×D的對角奇異值矩陣,其對角線上的元素為X的奇異值,并按照從大到小的降序排列;VT是D×D的正交矩陣,是V的轉置,也稱為右奇異矩陣;
步驟二:針對網絡流量數據集X,采用GMM建立模型刻畫數據特點,GMM的模型分量數與數據集X的流量類別數相等,因此,根據奇異值矩陣得到GMM的模型分量數初始值;
利用奇異值矩陣元素下降趨勢、前N個元素之和代表奇異值矩陣大部分信息以及數據矩陣的維度,進而確定奇異值矩陣中保留的奇異值元素數目,將其作為原始數據矩陣的初始聚類數;由于每一個聚類數據由一個GMM分量描述,則初始聚類數與模型分量數相等,得到GMM模型分量數的初始值;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州電子科技大學;浙江省電子信息產品檢驗研究院,未經杭州電子科技大學;浙江省電子信息產品檢驗研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010131033.5/2.html,轉載請聲明來源鉆瓜專利網。





