[發(fā)明專利]用于復雜網絡的分布式知識數據挖掘裝置和挖掘方法有效
| 申請?zhí)枺?/td> | 201310042046.5 | 申請日: | 2013-02-01 |
| 公開(公告)號: | CN103136337A | 公開(公告)日: | 2013-06-05 |
| 發(fā)明(設計)人: | 賀志強;牛凱;梁彬 | 申請(專利權)人: | 北京郵電大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京德琦知識產權代理有限公司 11018 | 代理人: | 夏憲富 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 復雜 網絡 分布式 知識 數據 挖掘 裝置 方法 | ||
技術領域
本發(fā)明涉及一種用于復雜網絡的分布式知識數據挖掘裝置和挖掘方法,屬于數據挖掘的計算機應用技術領域。
背景技術
目前,人類社會在每天產生的新數據都以爆炸形式迅速增長,實時分析處理這些海量數據,并挖掘其內部關系是分析決策者非常關注的問題。例如,我國信息科學的發(fā)展速度非常驚人,每年都會申報數千項科研項目,發(fā)表的論文和申請的專利都難以計數,分析這些科研項目、論文和專利的知識數據之間的關系網絡,并預測未來幾年該技術領域的研究熱點或焦點,可以幫助科研管理部門更有效地執(zhí)行項目的管理與審批,同時還可為該領域的研究人員開辟新的研究熱點方向。
數據挖掘是在大量數據中挖掘出有用信息,即從海量的、不完全的、有噪聲的、模糊的、隨機的實際數據中,發(fā)現隱含的、有規(guī)律性的、人們事先未知但具有潛在意義,并最終可理解的信息和知識的過程。數據挖掘的任務是要發(fā)現那些不能靠直覺發(fā)現的、有時甚至是違背直覺的知識或信息。其所挖掘的知識類型包括:模型、規(guī)律、規(guī)則、模式和約束等等。因此,數據挖掘是一個利用各種分析工具在海量數據中發(fā)現模型和數據之間關系的過程,使用這些模型和關系可以進行預測或幫助決策者尋找各數據之間的潛在關聯,發(fā)現被忽略的因素。因此,數據挖掘通常也被稱為知識發(fā)現KDD(Knowledge?Discovery?in?Database)。
數據挖掘也是數據庫中發(fā)現知識的一個操作步驟,簡單地講,就是從數據集合中抽取隱藏的有用信息的技術,用于幫助決策者分析歷史數據與當前數據之間的關系,并從中發(fā)現隱藏的關系和模式,進而預測未來可能發(fā)生的行為。
近年來,數據挖掘已經引起信息產業(yè)界的極大關注,其主要原因是:現存的大量數據都可以被廣泛使用,并且迫切需要將這些海量數據轉換成有用的信息和知識;再將這些獲取的信息和知識用于包括商務管理、生產控制、市場分析、工程設計和科學探索等各種應用。
具有自組織、自相似、吸引子、小世界和無標度中的部分或全部特性的網絡被稱為復雜網絡。復雜網絡作為一門新興學科,在不同領域中有著很強的應用背景,已經成為一個充滿生命力的交叉研究領域。目前,復雜網絡的研究內容主要包括:網絡的幾何性質,網絡的形成機制,網絡演化的統計規(guī)律,網絡上的模型性質,以及網絡的結構穩(wěn)定性,網絡的演化動力學機制等多種課題。
復雜網絡的社團探測與數據挖掘中的分類、聚類問題,兩者的本質是相同的。數據挖掘中比較常用的一種方法是通過對數據的加工,將其構建為復雜網絡架構,從而使用復雜網絡中的社團探測方法對數據進行分類、聚類,分析社團及整個網絡結構的演化。近年來,基于網絡和圖挖掘的分析方法受到了越來越多的關注。
研究高效率的實時處理算法是數據挖掘的一個重要研究方向,在數據挖掘中,經常遇到的一個難題是海量數據。由于數據量極大,所以只有低復雜度的算法才有實用價值。另外,采用云計算技術實現算法并行化,也是一種很好的解決方案,云計算是目前極具發(fā)展前景的技術,具有虛擬化、并行化和高效性等優(yōu)點,能夠解決海量數據處理速度慢的問題。狹義的云計算是指廠商通過分布式計算和虛擬化技術搭建數據中心或超級計算機,以免費或按需租用方式向技術開發(fā)者或企業(yè)客戶提供數據存儲、分析和科學計算等服務。云計算將計算任務分布在由大量計算機構成的資源池上,使各種應用系統能根據各自所需而獲取計算能力、存儲空間和各種軟件服務。例如,Hadoop平臺是一個能夠對海量數據進行分布式處理的功能模塊框架。其中的HDFS和MapReduce是該框架中兩個最重要、最基礎的組成部件。HDFS是Google?GFS的開源版本,也是一個高容錯的分布式文件系統,它能夠提供高吞吐量的數據訪問,適合存儲海量的文件。MapReduce是一個分為Map和Reduce兩個函數分別并行編程的函數模塊,MapReduce計算模型把計算操作分為Map和Reduce兩個過程,該功能結構極大地簡化了分布式計算的底層復雜性,并向用戶提供了一個簡單、可靠的應用接口。目前,如何把這種分布式的計算模式應用于數據挖掘,尤其是大規(guī)模圖結構計算上的研究和應用,已經獲得了業(yè)內科技人員的普遍關注。
數據挖掘的另一個重要熱點方向是面向領域設計,即針對不同的領域開發(fā)專用的數據挖掘系統。如今需要挖掘的數據來源極為廣泛,數據類型也非常繁雜、多樣,例如:包括結構數據和復雜數據對象、超文本和多媒體數據等等。為提升分析能力和效果,應當針對不同領域的應用開發(fā)專門的數據挖掘系統。本發(fā)明只是用于復雜網絡的大規(guī)模知識數據的挖掘裝置和方法。
以“數據挖掘”為關鍵詞,檢索到下述兩項中國發(fā)明專利申請,介紹如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學,未經北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310042046.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:自動報警的玻璃及報警系統
- 下一篇:變壓器防盜裝置





