[發明專利]一種基于pandas的數據融合方法在審
| 申請號: | 201810276769.4 | 申請日: | 2018-03-30 |
| 公開(公告)號: | CN108563716A | 公開(公告)日: | 2018-09-21 |
| 發明(設計)人: | 張國磊;張君鴻;高史貴 | 申請(專利權)人: | 北京智行鴻遠汽車有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京紐樂康知識產權代理事務所(普通合伙) 11210 | 代理人: | 范赤 |
| 地址: | 102200 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據融合 向量化 數據分析 數據格式 數據采集方式 數據存儲模式 通用數據格式 網絡數據采集 格式化 前導 加速數據 數據采集 網絡爬蟲 原始數據 轉換功能 分析 通用的 加載 數據庫 存儲 采集 融合 輸出 環節 | ||
1.一種基于pandas的數據融合方法,其特征在于,具體包括以下步驟:
步驟1:對多種常見的數據格式進行數據融合以及向量化處理;
步驟2:增加常見數據庫到通用數據格式的轉換功能,并進行數據融合以及數據的向量化;
步驟3:借助于網絡爬蟲實施網絡數據采集并最終以常見數據格式文件的形式輸入到本數據融合平臺;
步驟4:將所有數據進行數據的融合以及向量化格式化后,以通用的數據存儲模式進行存儲,提交給數據分析環節;
步驟5:加載向量化數據,并加速數據分析;
步驟6:根據分析,輸出最終的分析結果。
2.根據權利要求1所述的一種基于pandas的數據融合方法,其特征在于,不針對于一種數據格式,把常見不同的數據解析工具集成到pandas,所述數據解析工具解析所述常見的數據格式文件,同時對數據進行格式化、向量化加速處理。
3.根據權利要求1所述的一種基于pandas的數據融合方法,其特征在于,步驟1中所述常見的數據格式包括Excel數據、dat數據、json數據和csv數據。
4.根據權利要求1所述的一種基于pandas的數據融合方法,其特征在于,步驟4中所述將所有數據進行數據的融合以及向量化格式化的具體是指對所有數據進行統一的格式化,并且把所有的數據融合為同一類向量型數據。
5.根據權利要求1所述的一種基于pandas的數據融合方法,其特征在于,步驟5中所述加速數據分析的主要方法是通過把最終融合的數據向量化來實現數據分析的加速功能,利用目前的GPU加速技術以及計算機的分布式集群進行數據的并行處理或分割并行處理。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京智行鴻遠汽車有限公司,未經北京智行鴻遠汽車有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810276769.4/1.html,轉載請聲明來源鉆瓜專利網。





