[發明專利]一種基于概率分布的數據關聯方法無效
| 申請號: | 201210205098.5 | 申請日: | 2012-06-20 |
| 公開(公告)號: | CN102750373A | 公開(公告)日: | 2012-10-24 |
| 發明(設計)人: | 段起陽 | 申請(專利權)人: | 段起陽 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 510310 廣東省廣州*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 概率 分布 數據 關聯 方法 | ||
技術領域
本專利涉及數據分析方法,尤其是計算機實現的流數據分析和關聯方法以及數據關聯分析系統。
背景技術
現在很多系統都可以生成流數據,典型的比如計算機系統的性能監測數據,不同地區的天氣數據,金融數據(包括股票、債券、石油價格)等等。這些數據的共同特點是每個時間點都會生成一個新的數據,生成頻率非常高,從而導致無法長時間的存儲數據并分析。在每個時間點上的數據我們稱之為一個數據點。
如何能快速的發現這些數據之間關聯性是一個值得研究的問題。比如,在金融數據中,如果存在幾個金融數據,比如石油價格為A,匯率價格為B,當我們觀察股票C的漲跌情況的時候,我們希望能知道股票A的漲跌與石油價格A和匯率價格B之間是否存在關聯。或者說,當前股票C的價格變動,是不是由于A或者B的價格變動引起的,或者是別的因素。這個方法也同樣適用于多個股票之間的關系的分析。
復雜的系統,比如衛星系統、計算機網絡系統或者一個數據庫系統,一般都是由很多的部件構成的。比如數據庫系統中存在內存緩存,硬盤(或者外部存儲),CPU等的部件。針對每個部件,監控裝置可以監控他們的運行狀態,并記錄下來。每個部件記錄下來的數據就成為一個流數據。同時,我們針對整個的系統可能有其他的監控指標,比如系統的吞吐量,響應時間等。當我們在系統的響應時間上發現異常(比如特別慢)的時候,我們希望能自動分析內部每個部件的監測數據,并能夠定位到哪個部件的狀態數據與這個狀態特別相關。這樣,我們就可以很容易的發現系統問題出在什么地方。
?目前已經有一些方法通過計算流數據之間的相關系數來實現。典型的有Pearson相關系數,余弦(Cosine)相關性等。另外,還可以在計算相關性之前進行多種變換,比如傅里葉(Fourier)變換,小波(Haar?Wavelet)變換等。這些方法的共同點是他們計算的都是全局的相關性,比如可以計算兩個股票之間在全局的相關性,或者兩個部件的監測數據的全局相關性。
另外,有些方法也可以在局部區域計算相關性。比如可以把一段時間(或稱之為滑動窗口)的數據內部計算相關性。另外,還可以做特征值分解(SVD)變換后計算滑動窗口內的相關性。這種方法的問題是只能考慮當前窗口的變換,而不能利用歷史的信息。
高斯混合模型(Gaussian?Mixture?Model,記為GMM)是利用多個高斯分布(Gaussian?Distribution,記為G)來擬合現實數據的一個模型。每個高斯分布按照附圖1的公式定義。?[0008]?多個高斯分布線性可以按照附圖2的公式組合就構成了一個高斯混合模型GMM(x)。得到一個分布模型后(比如GMM(x)),如果有一個新的數據點x,可以輸入到函數中,得到這個數據點的分布概率P(x)。
最大似然方法(Expectation?Maximization,簡稱EM)方法是根據數據通過不斷的迭代擬合一個分布模型的方法。這個方法里面的每個迭代包括計算似然(E)和最大化似然(M)兩個步驟。?在E步驟里面,根據固定的分布參數來調整每個數據點屬于不同的分布模型的概率,在M步驟里面,把每個數據點屬于不同的分布固定,然后最大化每個分布模型的參數。最大似然方法可以用來擬合各種分布模型,其中包括高斯混合模型。
?在前面提到的技術的基礎上,本專利中提出了一種分析框架,這個分析框架根據歷史的流數據訓練一個分布模型,然后利用分布模型針對當前的流數據計算不同流數據直接相關性的方法。同時,本專利提出了利用高斯混合模型實現這種框架的方法和系統。
發明內容
本專利是一個可以根據歷史的流數據訓練一個分布模型,然后利用分布模型針對當前的流數據計算不同流數據之間相關度的方法。
如何訓練分布模型
本方法的模型訓練的輸入是多個數據流的歷史數據,假定有N個數據點,每個數據點上每個數據流有一個數據。根據用戶對于這些數據流的業務理解,這些數據流可以分成兩類:源數據流X和目標數據流Y。其中目標數據流Y一般是能夠描述整個系統的指標,而源數據流則一般可以描述系統中的子系統的狀態。我們希望能夠針對子系統的狀態和整個系統的狀態之間的復雜關系建立一個模型。在特殊的情況下,如果需要,用戶可以把所有的數據流都作為目標數據流,同時把所有的數據流都作為源數據流。
?首先聲明本專利中用到的一些符號:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于段起陽,未經段起陽許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210205098.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:重型電纜成纜、絞線、裝凱機通用底盤
- 下一篇:無線鼠標
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





