[發明專利]一種數據集散發布方法及系統在審
| 申請號: | 202011587648.5 | 申請日: | 2020-12-29 |
| 公開(公告)號: | CN112597232A | 公開(公告)日: | 2021-04-02 |
| 發明(設計)人: | 姚文巨 | 申請(專利權)人: | 南京小燦燦網絡科技有限公司 |
| 主分類號: | G06F16/25 | 分類號: | G06F16/25;G06F16/28 |
| 代理公司: | 南京司南專利代理事務所(普通合伙) 32431 | 代理人: | 于淼 |
| 地址: | 210009 江蘇省南京市*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據 集散 發布 方法 系統 | ||
1.一種數據集散發布方法,其特征在于,包括如下步驟:
S1:數據采集過程,通過多路采集端口采集數據,并對采集的數據進行預處理、標記、分發;
S2:數據抽取過程,基于S1中分發的數據并對數據進行規則算法抽取、合并以及數據抽取;
S3:數據分析過程,對抽取的數據進行數據分析,數據分析后將數據輸送至數據倉庫和主體數據庫中進行儲存,同時通過多維數據庫完成數據展現,并通過數據發布子系統進行發布。
2.根據權利要求1所述的一種數據集散發布方法,其特征在于,所述S1中具體包括:S11:通過多路采集接口采集原始數據,并對該原始數據進行匯聚以及預處理;S12:對預處理后的數據進行代表性樣本抽取,且抽取過程基于原始數據的每個屬性極大、極小、平均的標準;S13:利用正交化策略進行樣本矯正,選擇出最優樣本數據;S14:對該最優樣本數據進行數據標記、分發,將其分別分發至分析子系統,并由分析子系統進行數據抽取及分析。
3.根據權利要求2所述的一種數據集散發布方法,其特征在于,所述S11中預處理包括:去除該原始數據中的含缺失值的記錄以及異常值,利用數據集合的秩與類別數對其進行預切割。
4.根據權利要求1所述的一種數據集散發布方法,其特征在于,所述S2中具體包括:
S21:通過關聯規則算法對分發的原始數據進行抽取,得到預處理數據結果表;
S22:通過hive連接算法將預處理數據結果表進行合并,并將其導入至大數據平臺;
S23:大數據平臺基于相關度從預處理數據中提取關鍵數據;
且相關度公式為
其中,k(wi,wj)為數據wi與數據wj的相關度,tfid(wi)為wi的詞頻與逆向頻率值,d為關于數據wi與數據wj關于詞向量的歐式距離;
S24:使用深度學習對提取的關鍵數據進行實體識別和關系抽取。
5.根據權利要求1所述的一種數據集散發布方法,其特征在于,所述S3中數據展現通過報表方式和/或數據看板的方式進行數據展現,其中數據看板是將數據按照相關的數據分析模型進行數據抽取,并使用圖表、數據表格進行。
6.一種數據集散發布系統,其特征在于,包括采集端口、數據預處理子系統、數據分析子系統與數據發布子系統,其中采集端口設有多路,多路采集原始數據,并將該原始數據發送至數據預處理子系統;所述數據預處理子系統基于規則算法與抽取算法對采集的數據進行預處理、標記、分發、抽取以及數據分析;所述數據發布子系統包含有多維數據庫以及數據發布庫,多維數據庫將分析處理后的數據進行存儲以及數據展現,數據發布庫將分析處理后的數據進行發布。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京小燦燦網絡科技有限公司,未經南京小燦燦網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011587648.5/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





