[發明專利]一種信息系統服務平臺用數據采集系統在審
| 申請號: | 201510660461.6 | 申請日: | 2015-10-15 |
| 公開(公告)號: | CN105653573A | 公開(公告)日: | 2016-06-08 |
| 發明(設計)人: | 姚致清;胡韻華;李志勇;張喜玲;韓萬林;楊慧霞;閆黎明;贠雨含;劉政;蔣冠前;陳勇;蘇靜;楊靜 | 申請(專利權)人: | 許昌開普電氣研究院;《電力系統保護與控制》雜志社 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 461000 河*** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 信息系統 服務 平臺 數據 采集 系統 | ||
背景技術
設立在許昌開普研究院的“中國電器工業繼電保護及自動化設備協會”,隸屬中國電氣工業協會,下屬有30多個行業協會分支機構,擁有一萬多家行業企業會員。協會需要搜集大量的企業信息,目前對于企業信息的搜集停留在過去手工收集,手工整理,手工做報表的傳統信息化水平。隨著行業規模不斷壯大,大量的離線業務數據零散的分布在單機PC中,形成一個個信息孤島,使得難以對業務數據進行快速歷史、橫向對比、縱向研究等有效的分析和利用,削弱了服務質量,降低了工作效率,影響了研究院對協會成員的服務質量。為消除以上問題、彌補不足、建立健全統計工作網絡、增加統計企業數量、縮短統計工作時間、更好服務行業企業,我們開發了行業數據采集系統。
發明內容
許昌開普電氣研究院的數據采集主要分為結構化和半結構化數據采集和非機構化數據采集(通過網絡爬蟲方式獲取網絡數據)。在許昌開普電氣研究院的數據倉庫(EDW)系統中,數據由數據源系統加載到數據倉庫(EDW)的各個數據層中,并通過提供數據接口給相關使用者。其實現的困難在于數據采集(數據整合)系統將面臨的數據環境復雜,包括巨大的加載數據量、錯綜復雜的數據關系和參差不齊的數據質量,這些都使數據采集的架構和應用設計需要解決的問題。
結構化和半結構化數據采集
結構化和半結構化數據采集模型如圖1所示。圖1中:
1、用系統的BPM平臺可以支持多個應用,每個應用是一個運行時的實例;
2、一個應用包含有一個或多個模塊,在應用上可以定義角色、函數、樣式、組件等技術的工件,并應用于各個業務模塊;
3、一個模塊式一組業務功能的集合,他包括表單、工作流、視圖、報表、任務等。
通過高效的數據采集系統結構、層次化的應用功能劃分和標準的程序模板,數據倉庫(EDW)系統能夠達到以下目標:
1、支持在此框架下實現行業信息系統服務平臺所需要的數據采集功能;
2、支持在規定的批處理時間窗口(BatchWindow)內能夠完成數據加載工作,即需要滿足日常數據加載的性能需求;
3、能夠支持有效的應用程序開發模式,提高開發效率,盡量減少應用開發成本;
4、減少系統維護的復雜性,支持后續增加新數據或功能的開發工作;
5、和上系統接口的松耦合設計,避免上系統的變更導致數據采集程序本身頻繁變更。
許昌開普電氣研究院的數據倉庫(EDW)系統數據采集復雜,應用系統數據需求旺盛,數據質量參差不齊,結合以上系統目標及設計原則,采用的是BPM數據采集工具。BPM的數據結構設計如圖2所示。圖2中:
1、設計時數據--包含發Form、View、WorkFlow的設計模板,僅在系統設計時被改變和存儲;
2、授權類數據—包含User、Role、Dept信息,表現用戶的基本信息、角色信息、組織架構,以及定義對系統各功能模塊的訪問權限;
3、運行時數據—包含Counter、Document、WorkFlowstate數據,分別存儲計算器、文檔、工作流狀態。考慮到需要不同的實例(一個實例對應一個應用,比如可以為不同的應用系統分別建立不同的實例)邏輯上分開,所以對于每一個不同的實例,提供不同的數據源定義。
非結構化數據采集示例
非結構化數據采集模型如圖3所示。本系統通過開發的數據爬蟲技術,可以通過互聯網把數據爬蟲到hadoop平臺中,通過Hadoop處理快速非機構化的文本,把數據整合到關系型數據庫中進行分析。利用Hadoop實現了一個分布式文件系統(HadoopDistributedFileSystem),簡稱HDFS。HDFS有高容錯性的特點,并且設計用來部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(highthroughput)來訪問應用程序的數據,適合那些有著超大數據集(largedataset)的應用程序。HDFS放寬了(relax)POSIX的要求,可以以流的形式訪問(streamingaccess)文件系統中的數據。Hadoop帶有用Java語言編寫的框架,運行在Linux生產平臺上Hadoop上的應用程序也可以使用其他語言編寫,比如C++。Hadoop的MapReduce功能實現了將單個任務打碎,并將碎片任務(Map)發送到多個節點上,之后再以單個數據集的形式加載(Reduce)到數據倉庫里。實現非結構化數據的自動采集。
附圖清單:
圖1結構化和半結構化數據采集模型
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于許昌開普電氣研究院;《電力系統保護與控制》雜志社,未經許昌開普電氣研究院;《電力系統保護與控制》雜志社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510660461.6/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





