[發明專利]一種異構結構化數據融合概率的計算方法及系統在審
| 申請號: | 201711292720.X | 申請日: | 2017-12-08 |
| 公開(公告)號: | CN110019164A | 公開(公告)日: | 2019-07-16 |
| 發明(設計)人: | 張鵬飛 | 申請(專利權)人: | 上海儀電(集團)有限公司中央研究院 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215 |
| 代理公司: | 上海容慧專利代理事務所(普通合伙) 31287 | 代理人: | 于曉菁 |
| 地址: | 200233 上海*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據集 數據融合 表項 人工標注 特征向量 異構結構 融合度 概率 融合 計算方法及系統 機器學習模型 讀取 概率計算 概率模型 機器學習 計算系統 數據讀取 數據分析 字段信息 結構化 讀入 字段 智能 統計 | ||
本發明公開一種異構結構化數據融合概率的計算方法,包括以下步驟:S1數據讀取,讀取數據集,將數據集的各字段信息讀入系統;S2數據分析,將S1讀取的數據集,按其結構化表項進行整理和統計,得到表項特征向量;S3人工標注,將已融合過的數據集進行融合度人工標注,通過對比已融合過的數據集的表項特征向量與融合度人工標注結果,得到表項特征向量與融合度之間的概率模型;S4建立機器學習模型,將S2和S3得到的結果進行機器學習訓練,得到各數據集不同字段之間融合概率;本發明還公開了一種異構結構化數據融合概率的計算系統;本發明提供了一種能快速、智能進行數據融合概率計算的方法和系統。
技術領域
本發明涉及大數據應用領域,尤其涉及一種異構結構化數據融合概率的計算方法及系統。
背景技術
隨著信息爆炸和數據的指數型增長,越來越多的公司、機構和部門積累了各自豐富多樣的數據。在實際的數據融合分析過程中,往往需要數據分析師對于結構化數據的不同表項、字段加以人工的理解、標注、區分和對照,來判斷某兩個不同的數據表格之間是否具有相應的數據融合可能性。然而,這種人工的識別和判斷速度遠遠趕不上數據量和數據源數目的增長,因此,需要通過機器學習和人工智能的手段,對于多來源、異構的結構化數據不同字段進行讀取、統計、對比和判斷,以從繁多的數據表格中找到具有相同、接近字段或者具有數據融合可能性的數據集。
因此,現有技術的數據融合概率的計算方法存在依賴人工帶來的速度慢的問題。
發明內容
為解決上述技術問題,本發明提供了一種能快速、智能進行數據融合概率計算的方法和系統
一種異構結構化數據融合概率的計算方法,包括以下步驟:
S1數據讀取,讀取數據集,將數據集的各字段信息讀入系統;
S2數據分析,將S1讀取的數據集,按其結構化表項進行整理和統計,得到表項特征向量;
S3人工標注,將已融合過的數據集進行融合度人工標注,通過對比已融合過的數據集的表項特征向量與融合度人工標注結果,得到表項特征向量與融合度之間的概率模型;
S4建立機器學習模型,將S2和S3得到的結果進行機器學習訓練,得到各數據集不同字段之間融合概率。
優選地,所述S1數據讀取包括循環讀取。
優選地,所述特征向量包括字段名稱、字段數據類型、字段數據出現概率、缺失值概率、異常址概率和高概率值元數據;
字段名稱,重點支持字段名稱的模糊匹配,如“name”和“姓名”的對應可能性更大;
字段數據類型,重點關注數字、字符串等數字類型及數據長度;
字段數據出現概率,包括不同數值的概率分布,以及每個字符串中不同字母出現概率分布;
缺失值概率,即空白值占總表項的百分比;
異常址概率,包括數值異常和數據格式異常;
高概率值元數據,主要描述在字段中反復出現的高概率值的記錄和出現頻率規律。
優選地,所述S1包括優先讀取目標數據集。
優選地,還包括:S5降維處理,對S2得到的特征向量進行降低維度處理。
本發明還提供了一種異構結構化數據融合概率的計算系統,包括:
數據載入模塊,讀取并輸入數據集;
數據特征抽取模塊,對于讀取的每個數據集,按其結構化表項進行整理和統計,得到表項特征向量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海儀電(集團)有限公司中央研究院,未經上海儀電(集團)有限公司中央研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711292720.X/2.html,轉載請聲明來源鉆瓜專利網。





