[發明專利]一種異構結構化數據融合概率的計算方法及系統在審
| 申請號: | 201711292720.X | 申請日: | 2017-12-08 |
| 公開(公告)號: | CN110019164A | 公開(公告)日: | 2019-07-16 |
| 發明(設計)人: | 張鵬飛 | 申請(專利權)人: | 上海儀電(集團)有限公司中央研究院 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215 |
| 代理公司: | 上海容慧專利代理事務所(普通合伙) 31287 | 代理人: | 于曉菁 |
| 地址: | 200233 上海*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據集 數據融合 表項 人工標注 特征向量 異構結構 融合度 概率 融合 計算方法及系統 機器學習模型 讀取 概率計算 概率模型 機器學習 計算系統 數據讀取 數據分析 字段信息 結構化 讀入 字段 智能 統計 | ||
1.一種異構結構化數據融合概率的計算方法,其特征在于,包括以下步驟:
S1數據讀取,讀取數據集,將數據集的各字段信息讀入系統;
S2數據分析,將S1讀取的數據集,按其結構化表項進行整理和統計,得到表項特征向量;
S3人工標注,將已融合過的數據集進行融合度人工標注,通過對比已融合過的數據集的表項特征向量與融合度人工標注結果,得到表項特征向量與融合度之間的概率模型;
S4建立機器學習模型,將S2和S3得到的結果進行機器學習訓練,得到各數據集不同字段之間融合概率。
2.如權利要求1所述的異構結構化數據融合概率的計算方法,其特征在于,所述S1數據讀取包括循環讀取。
3.如權利要求1所述的異構結構化數據融合概率的計算方法,其特征在于,所述特征向量包括字段名稱、字段數據類型、字段數據出現概率、缺失值概率、異常址概率和高概率值元數據。
4.如權利要求1所述的異構結構化數據融合概率的計算方法,其特征在于,所述S1包括優先讀取目標數據集。
5.如權利要求1所述異構結構化數據融合概率的計算方法,其特征在于,還包括:S5降維處理,對S2得到的表項特征向量進行降低維度處理。
6.一種異構結構化數據融合概率的計算系統,其特征在于,包括:
數據載入模塊,讀取并輸入數據集;
數據特征抽取模塊,對于讀取的每個數據集,按其結構化表項進行整理和統計,得到表項特征向量;
數據相關度訓練標注模塊,將已經融合過的數據集進行人工標注,通過對比其表項特征向量與標注結果,得到表項特征向量與融合度之間的概率模型;
融合訓練模塊,綜合進行機器學習的訓練,得到各數據集不同字段之間融合概率。
7.如權利要求6所述的系統,其特征在于,所述數據載入模塊包括分布式平臺,所述分布式平臺用于循環讀取各數據集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海儀電(集團)有限公司中央研究院,未經上海儀電(集團)有限公司中央研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711292720.X/1.html,轉載請聲明來源鉆瓜專利網。





