[發明專利]能夠采集多種構造數據源的通用數據采集系統及采集方法在審
| 申請號: | 201310459203.2 | 申請日: | 2013-09-30 |
| 公開(公告)號: | CN103473378A | 公開(公告)日: | 2013-12-25 |
| 發明(設計)人: | 蘇丹;高崧;吳佳;李坤;吳舜;聶正璞;許大衛;杜劍雯;劉昀;來驥;王黎;李賢;李曉東;李超;劉志偉;楊帆;李雪梅;那瓊瀾 | 申請(專利權)人: | 國家電網公司;國網冀北電力有限公司信通分公司;北京博望華科科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京五月天專利商標代理有限公司 11294 | 代理人: | 李永聯 |
| 地址: | 100053*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 能夠 采集 多種 構造 數據源 通用 數據 系統 方法 | ||
技術領域
本發涉及到ETL(數據抽取、轉換和加載)技術,特別是針對關系庫和實時數據庫等異構數據源的數據抽取技術,具體涉及一種能夠采集多種構造數據源的通用數據采集系統及采集方法。
背景技術
經過多年的計算機應用和數據積累,許多商業企業保存了大量的原始數據和各種業務數據,這些數據反映了企業主體的經濟動態。數據倉庫的出現使數據能夠以統一的方式集中存儲分析統計,形成有效的信息幫助企業決策。由于企業的信息系統都是逐步建立的缺乏統一的標準和平臺,實現對不同系統的數據抽取工作只能通過針對不同的平臺開發不同的抽取程序,這樣就加大了數據抽取的成本和復雜性。
發明內容
本發明的主要目的在于提供一種能夠采集多種構造數據源的通用數據采集系統。通過該系統可以同時對多個不同結構的數據源進行數據采集。
本發明公開了一種能夠采集多種構造數據源的通用數據采集系統,包括:數據倉庫、采集程序框架和數據源,為每個需要被采集數據的數據源配設相應的驅動模塊,對每一個數據源類別的實例編寫配置文件,對每個實例分配唯一性標識,一個數據源類別可對應有多個實例,一個實例只能對應一種數據源類型,設置統一的數據存儲格式,每個驅動模塊需要將采集過來的數據轉化為所述存儲格式以便存儲。
其中所述唯一性標識用于確定數據從哪個數據源實例采集,以及在采集過程中的方法設置。所述方法設置包括,取最大、取最小或平均。
采集程序框架根據所述唯一性標識來決定數據采集方式進而決定啟動哪個驅動,驅動模塊通過配置文件來獲取數據來源信息,采集過來的數據由采集程序框架統一存儲。所述數據來源信息包括IP地址和/或端口。
本發明還公開采用上述通用數據采集系統進行數據采集的方法,包括如下步驟:
1)、取得一個需要采集數據的唯一性標識,根據唯一性標識取得所需數據源;
2)、采集程序框架在第一次遇到此數據源時,根據數據源所對應的數據源類型來加載驅動模塊,同時加載對應這個數據源的配置文件來確定數據來源的其它參數;
3)、采集程序框架根據唯一性標識取得數據采集方法并把這些信息傳遞給驅動模塊,驅動模塊負責把數據從數據源中采集;
4)、采集程序框架接收由驅動模塊采集到的標準數據,并存儲到數據倉庫中。
其中,其它參數是端口、用戶名和密碼。
其中,在步驟2)中,如果是第二次遇到此數據源則直接從緩存中取得些數據源,不再重新進行步驟2)實例化數據源的過程。
數據采集是信息系統的基礎模塊,通過本發明可以使企業在開發過程中復用采集程序,減少開發成本,加快實施部署。通過本發明,對于新系統的部署只需要修改配置文件即可實施部署,減少測試和修改時間。
附圖說明
圖1:數據源結構圖;
圖2:通用數據采集系統框圖。
具體實施方式
下面結合附圖對本發明進行具體說明。
如圖1所示,為每個需要被采集數據的數據源類型開發相應的驅動模塊。并對每一個數據源類別的實例編寫配置文件。并對每個實例分配唯一性標識。一個數據源類型可對有多個實例,但一個實例只能對應一種數據源類型,是一對多的關系。
為所有需要被采集的數據進行唯一標識,這個標識主要的目標是確定這個數據從哪個數據源實例采集。以及在采集過程中的方法設置例如:取最大,最小,平均等。
設置統一的數據存儲方式,一般來說都是標識、時間、和數據來存儲采集過來的數據。每個驅動模塊需要將采集過來的數據轉化為這種結構以便存儲。
采集框架程序根據標識來決定數據采集方式進而決定采集哪個驅動模塊,具體的采集工作由具體的驅動模塊負責,驅動模塊通過配置文件來獲取數據來源信息例如:IP地址,端口等。采集過來的數據由框架程序統一存儲。
具體而言,包括如下步驟:
1)、取得一個需要采集數據的標識?如標識1,根據標識取得所需數據源;
2)、采集程序框架在第一次遇到此數據源時,根據數據源所對應的數據源類型來加載驅動模塊,同時加載對應這個數據源的配置文件來研究數據來源的其它參數。如果是第二次遇到此數據源則直接從緩存中取得些數據源,不再重新實例化;
3)、采集程序框架根據標識1取得數據采集方法并把這些信息傳遞給驅動模塊,驅動模塊負責把數據從數據源中采集;
4)、采集程序框架接收由驅動模塊采集到的標準數據,并存儲到數據倉庫中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國家電網公司;國網冀北電力有限公司信通分公司;北京博望華科科技有限公司,未經國家電網公司;國網冀北電力有限公司信通分公司;北京博望華科科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310459203.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:智能型礦用地下人員定位及在線監控指揮系統
- 下一篇:計算機輔助電話訪問系統





