[發明專利]一種基于pandas的數據融合方法在審
| 申請號: | 201810276769.4 | 申請日: | 2018-03-30 |
| 公開(公告)號: | CN108563716A | 公開(公告)日: | 2018-09-21 |
| 發明(設計)人: | 張國磊;張君鴻;高史貴 | 申請(專利權)人: | 北京智行鴻遠汽車有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京紐樂康知識產權代理事務所(普通合伙) 11210 | 代理人: | 范赤 |
| 地址: | 102200 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據融合 向量化 數據分析 數據格式 數據采集方式 數據存儲模式 通用數據格式 網絡數據采集 格式化 前導 加速數據 數據采集 網絡爬蟲 原始數據 轉換功能 分析 通用的 加載 數據庫 存儲 采集 融合 輸出 環節 | ||
本發明涉及一種基于pandas的數據融合方法,包括以下步驟:步驟1:對多種常見的數據格式進行數據融合以及向量化處理;步驟2:增加常見數據庫到通用數據格式的轉換功能,并進行數據融合以及數據的向量化;步驟3:借助于網絡爬蟲實施網絡數據采集并最終以常見數據格式文件的形式輸入到本數據融合平臺;步驟4:以通用的數據存儲模式進行存儲,提交給數據分析環節;步驟5:加載向量化數據,并分析;步驟6:根據分析,輸出最終的結果。本發明的有益效果為:此融合方法可作為數據采集的后繼性輸入,結合不同的數據采集方式進行原始數據的采集,擴展了數據的來源;也可作為數據分析的前導性輸入,對數據進行格式化、向量化,加速數據分析的過程。
技術領域
本發明涉及數據分析領域,具體來說,涉及一種基于pandas的數據融合方法。
背景技術
隨著計算機技術的發展,大數據、云計算等已經成為各互聯網公司甚至部分傳統實業公司的核心競爭力。而數據分析技術是這些核心技術的能夠得以展示其競爭力的主要手段。然而,最終能夠轉化為競爭效力的則是數據。在此環境下,數據采集以及數據融合技術成為了競爭力的關鍵所在。
目前常見的數據融合技術大都是針對一種定制化的數據格式或者數據庫進行數據融合處理,這樣就在一定程度上減少了數據輸入的來源。
發明內容
針對相關技術中的上述技術問題,本發明提出一種基于pandas的數據融合方法,能夠對多種數據格式或者數據庫進行數據融合處理。
為實現上述技術目的,本發明的技術方案是這樣實現的:
一種基于pandas的數據融合方法,具體包括以下步驟:
步驟1:對多種常見的數據格式進行數據融合以及向量化處理;
步驟2:增加常見數據庫到通用數據格式的轉換功能,并進行數據融合以及數據的向量化;
步驟3:借助于網絡爬蟲實施網絡數據采集并最終以常見數據格式文件的形式輸入到本數據融合平臺;
步驟4:將所有數據進行數據的融合以及向量化格式化后,以通用的數據存儲模式進行存儲,提交給數據分析環節;
步驟5:加載向量化數據,并加速數據分析;
步驟6:根據分析,輸出最終的分析結果。
進一步地,不針對于一種數據格式,把常見不同的數據解析工具集成到pandas,所述數據解析工具解析所述常見的數據格式文件,同時對數據進行格式化、向量化加速處理。
進一步地,步驟1中所述常見的數據格式包括Excel數據、dat數據、json數據和csv數據。
進一步地,步驟4中所述將所有數據進行數據的融合以及向量化格式化的具體是指對所有數據進行統一的格式化,并且把所有的數據融合為同一類向量型數據。
進一步地,步驟5中所述加速數據分析的主要方法是通過把最終融合的數據向量化來實現數據分析的加速功能,利用目前的GPU加速技術以及計算機的分布式集群進行數據的并行處理或分割并行處理。
本發明的有益效果:對不同格式的數據進行統一的格式化,進而把所有的數據融合為同一類向量型數據;一方面,此融合方法可以作為數據采集的后繼性輸入,結合網絡爬蟲等不同的數據采集方式進行數據原始數據的采集,擴展了數據的來源;另一方面此方法可以作為數據分析的前導性輸入,為數據提供格式化、向量化的數據,加速數據分析的過程。
在實際的開發生產運用中,通過對標定、實驗數據等多種數據的分析融合,實現了對公司大數據的積累。同時,高速的處理方式能夠將之前理論人工數年需要完成的分析工作縮短到幾個小時。
附圖說明
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京智行鴻遠汽車有限公司,未經北京智行鴻遠汽車有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810276769.4/2.html,轉載請聲明來源鉆瓜專利網。





