[發明專利]一種基于大數據環境下的多源數據聚合抽樣方法及系統在審
| 申請號: | 201910373940.8 | 申請日: | 2019-05-07 |
| 公開(公告)號: | CN110147357A | 公開(公告)日: | 2019-08-20 |
| 發明(設計)人: | 云本勝;錢亞冠;胡月 | 申請(專利權)人: | 浙江科技學院 |
| 主分類號: | G06F16/182 | 分類號: | G06F16/182;G06F16/174;G06F16/11 |
| 代理公司: | 重慶市信立達專利代理事務所(普通合伙) 50230 | 代理人: | 包曉靜 |
| 地址: | 310023 *** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 原始數據源 多源數據 大數據 數據源 抽樣 采集 聚合 詞語 分布式計算 數據預處理 預處理模塊 詞頻矩陣 計算節點 來源數據 融合處理 冗余操作 形成文件 校驗 融合 關聯域 二維 分詞 構建 去除 顯示器 排序 清洗 均衡 調度 | ||
本發明屬于大數據技術領域,公開了一種基于大數據環境下的多源數據聚合抽樣方法及系統,采集多個原始數據源,每一原始數據源包括數據源名稱和至少一個關聯域;對采集的數據源進行清洗、識別、去除冗余操作;利用構建程序根據原始數據源,獲取原始策略列表,對原始策略列表中的原始策略進行排序,形成數據源間策略列表;利用融合程序將不同來源數據集進行融合處理;將融合后的文件進行分詞,形成文件詞語的二維詞頻矩陣;設定均衡校驗數值,循環匹對各個詞語,進行滾雪球抽樣;利用顯示器顯示采集的多源數據。本發明通過預處理模塊計算節點由Spark調度,完成分布式計算,能夠實現更高效地數據預處理,實用性強,適用范圍廣。
技術領域
本發明屬于大數據技術領域,尤其涉及一種基于大數據環境下的多源數據聚合抽樣方法及系統。
背景技術
多源數據融合技術指利用相關手段將調查、分析獲取到的所有信息全部綜合到一起,并對信息進行統一的評價,最后得到統一的信息的技術。該技術研發出來的目的是將各種不同的數據信息進行綜合,吸取不同數據源的特點然后從中提取出統一的,比單一數據更好、更豐富的信息。然而,現有大數據環境下的多源數據聚合抽樣過程中,對結構化數據,對于半結構化、非結構化的數據預處理研究不足,并且通常只包含數據采集和數據清洗兩個模塊,而且數據清洗的方法也比較簡單,不能很好地滿足用戶需求;同時,數據的融合時,沒有開放鏈接數據集作為先驗知識,無法在減少比較復雜度的情況下高效準確進行大規模異構數據源的融合。
綜上所述,現有技術存在的問題是:
現有大數據環境下的多源數據聚合抽樣過程中,對結構化數據,對于半結構化、非結構化的數據預處理研究不足,并且通常只包含數據采集和數據清洗兩個模塊,而且數據清洗的方法也比較簡單,不能很好地滿足用戶需求;同時,數據的融合時,沒有開放鏈接數據集作為先驗知識,無法在減少比較復雜度的情況下高效準確進行大規模異構數據源的融合。
發明內容
針對現有技術存在的問題,本發明提供了一種基于大數據環境下的多源數據聚合抽樣方法及系統。
本發明是這樣實現的,一種基于大數據環境下的多源數據聚合抽樣方法,所述基于大數據環境下的多源數據聚合抽樣方法包括:
通過數據融合模塊利用融合程序將不同來源數據集進行融合處理;在融合多個來源的實體數據時,分別對每個數據源的屬性進行規范化表示,其中包括了同義屬性映射和對屬性值的數值單位的統一轉換;基于實體名和實體屬性對實體進行分塊聚合;將同一分塊內不同來源的實體作為候選實體對,采用實體對齊算法計算實體間的相似度,將匹配得到不同來源中描述同一客觀世界的實體對,建立不同數據源之間同一實體的等價鏈接,并進行實體屬性的合并,而對于一個數據源中獨有的實體,直接添加到知識庫中;
通過分詞模塊將融合后的文件進行分詞,形成文件詞語的二維詞頻矩陣;
s.t.Xi=XiAi+Ei,i=1,…,K
其中α是大于0的系數,用來度量正常詞語和異常詞語分詞帶來的誤差;
等價為以下模型:
s.t.Xi=XiSi+Ei,
Ai=Ji,
Ai=Si,i=1,…,K
進一步,所述基于大數據環境下的多源數據聚合抽樣方法進一步包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江科技學院,未經浙江科技學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910373940.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:數據傳輸方法及裝置
- 下一篇:自動問答知識庫的建設方法及建設系統





