[發明專利]一種基于云計算的聚類特征等值直方圖的維護方法在審
| 申請號: | 201310440281.8 | 申請日: | 2013-09-25 |
| 公開(公告)號: | CN103488757A | 公開(公告)日: | 2014-01-01 |
| 發明(設計)人: | 侯德龍;馬旭軍;曹玲玲;方雪靜 | 申請(專利權)人: | 浪潮電子信息產業股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 250014 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 計算 特征 等值 直方圖 維護 方法 | ||
技術領域
本發明涉及計算機應用技術領域,具體地說是一種基于云計算的聚類特征等值直方圖的維護方法。
隨著網絡信息時代的來臨,XML由于其良好的結構性和可擴展性,越來越多的用于網絡信息的交流,這導致生成了大量XML數據流。如何從海量異構的XML文檔中找到有用信息成為重要研究課題。其中面向XML數據流的聚類算法越來越多的得到人們的注意。為了在線聚類這些XML數據流,本文介紹了一種基于滑動窗口的XML聚類算法。該算法將XML文檔或文檔集概化為一種層結構,并將該層結構組織成等值直方圖用于表示一個實時類;為了在線聚類的維護,采用了滑動窗口技術實現動態添加與刪除XML文檔的操作。
背景技術
數據流最初是通信領域中使用的概念,代表傳輸中使用的信息的數字編碼信號序列?,F在所說的數據流屬于廣義概念,指的是以流的形式產生的數據,其所用的范圍廣得多。廣義上的數據流最早出現于傳統的銀行和股票交易領域,后來出現在地質測量、氣象和天文觀測等方面,而互聯網和無線通信網的出現,同樣產生了大量數據流類型的數據,比如網絡流量監控、點擊流和通話記錄等。
傳統的數據挖掘方法一般是針對靜態數據的挖掘,在靜態數據中它們可以高效地挖掘出有用的知識和信息,因此,最初對數據的分析往往是在脫機情況下進行的數據挖掘。然而一些新的應用對時間因素非常敏感,比如網絡安全和國家安全領域方面,而傳統的數據挖掘方法卻無法適應高速的、大量的、實時性很強的數據流數據。因此,針對數據流的挖掘技術已經成為人們研究的重點。在數據流挖掘技術中,數據流一般采用這樣的定義:數據流是指可能無限的、持續而快速到達的數據序列,它主要分為三種類型:Time?Series?Model,Cash?Register?Model,Turnstile?Model。
到目前為止,理論界比較公認的數據流挖掘方法應具備如下特點[8]:?
(1)對于每條數據的處理都必須用很少的時間,否則數據的處理會落后于數據的積累。
(2)使用有限的內存;
(3)數據只能掃描一遍,因為沒有時間和空間再訪問以前的數據;?
(4)在任何時刻都能夠得到模式,而不是在所有的處理完成后生成模式;?
(5)應建立與數據庫中的數據模型等價或近似等價的數據模型;
(6)當數據的產生隨時間變化而變化時,要保證模型在任何時候都是動態更新的,并且能保留過去未過時的信息;?
(7)盡量保證算法能夠在線挖掘數據,也就是說盡量不采用先挖掘出中間結果,再通過中間結果挖掘出知識的方法,而是盡量使算法做到能在需要的時候直接輸出挖掘結果。??
由于傳統的數據挖掘方法已經很難適應數據流挖掘的過程,這就需要新的方法來專門處理數據流挖掘的問題。數據挖掘中一些基礎性的挖掘技術,如分類、聚類和關聯規則等,如果應用在數據流的環境中,都要對相應的挖掘算法提出更高的要求。因此數據流挖掘成為數據挖掘領域比較新的研究熱點,也引起了越來越多人的關注。
隨著網絡技術的快速發展,XML由于其靈活性和自我們描述的性質,得到了廣泛的應用?;赬ML網絡數據的一些例子包括技術期刊,文獻數據庫,雅虎,eBay,和政府部門。作為兩個主要標準數據和元數據的表示XML被廣泛采用,這導致XML的數據收集大量。因此,如何從海量異類的XML文件中找到有用信息迫在眉睫。
一些數據庫工具滿足XML數據的發送、存儲、整合和查詢。盡管如此,它們都需要有效地數據庫管理技術,比如基于結構相似性上的索引技術?;诮Y構相似性上的索引技術現在廣泛應用在網絡搜索引擎的后臺處理工作。當用戶需要索引一批結構相似的XML文檔數據的時候,如何從大量的異構XML數據中找到相似度足夠高的一批文檔就成了一個需要解決的重要問題。
數據挖掘技術的分支之一聚類恰好可以根據文件結構的相似性進行分組以便進行其他應用。XML結構相似性的評估同時對網絡數據的管理有著極大的價值。許多從多個網絡數據源提取整合相關信息的技術都需要根據它們的相似性對數據進行分組。
聚類技術在對海量的、符號和文本數據進行分組方面已經發展了很多年。XML數據的聚類和平面數據和文本的聚類有很大不同,甚至更復雜。
發明內容
本發明的目的是提供一種基于云計算的聚類特征等值直方圖的維護方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浪潮電子信息產業股份有限公司,未經浪潮電子信息產業股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310440281.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:傾翻式全封閉戶外垃圾箱
- 下一篇:一種用于扎針時握持小兒手臂的防滑套





