[發(fā)明專(zhuān)利]一種基于大數(shù)據(jù)環(huán)境下的多源數(shù)據(jù)聚合抽樣方法及系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 201910373940.8 | 申請(qǐng)日: | 2019-05-07 |
| 公開(kāi)(公告)號(hào): | CN110147357A | 公開(kāi)(公告)日: | 2019-08-20 |
| 發(fā)明(設(shè)計(jì))人: | 云本勝;錢(qián)亞冠;胡月 | 申請(qǐng)(專(zhuān)利權(quán))人: | 浙江科技學(xué)院 |
| 主分類(lèi)號(hào): | G06F16/182 | 分類(lèi)號(hào): | G06F16/182;G06F16/174;G06F16/11 |
| 代理公司: | 重慶市信立達(dá)專(zhuān)利代理事務(wù)所(普通合伙) 50230 | 代理人: | 包曉靜 |
| 地址: | 310023 *** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 原始數(shù)據(jù)源 多源數(shù)據(jù) 大數(shù)據(jù) 數(shù)據(jù)源 抽樣 采集 聚合 詞語(yǔ) 分布式計(jì)算 數(shù)據(jù)預(yù)處理 預(yù)處理模塊 詞頻矩陣 計(jì)算節(jié)點(diǎn) 來(lái)源數(shù)據(jù) 融合處理 冗余操作 形成文件 校驗(yàn) 融合 關(guān)聯(lián)域 二維 分詞 構(gòu)建 去除 顯示器 排序 清洗 均衡 調(diào)度 | ||
1.一種基于大數(shù)據(jù)環(huán)境下的多源數(shù)據(jù)聚合抽樣方法,其特征在于,所述基于大數(shù)據(jù)環(huán)境下的多源數(shù)據(jù)聚合抽樣方法包括:
通過(guò)數(shù)據(jù)融合模塊利用融合程序?qū)⒉煌瑏?lái)源數(shù)據(jù)集進(jìn)行融合處理;在融合多個(gè)來(lái)源的實(shí)體數(shù)據(jù)時(shí),分別對(duì)每個(gè)數(shù)據(jù)源的屬性進(jìn)行規(guī)范化表示,其中包括了同義屬性映射和對(duì)屬性值的數(shù)值單位的統(tǒng)一轉(zhuǎn)換;基于實(shí)體名和實(shí)體屬性對(duì)實(shí)體進(jìn)行分塊聚合;將同一分塊內(nèi)不同來(lái)源的實(shí)體作為候選實(shí)體對(duì),采用實(shí)體對(duì)齊算法計(jì)算實(shí)體間的相似度,將匹配得到不同來(lái)源中描述同一客觀世界的實(shí)體對(duì),建立不同數(shù)據(jù)源之間同一實(shí)體的等價(jià)鏈接,并進(jìn)行實(shí)體屬性的合并,而對(duì)于一個(gè)數(shù)據(jù)源中獨(dú)有的實(shí)體,直接添加到知識(shí)庫(kù)中;
通過(guò)分詞模塊將融合后的文件進(jìn)行分詞,形成文件詞語(yǔ)的二維詞頻矩陣;
s.t.Xi=XiAi+Ei,i=1,…,K
其中α是大于0的系數(shù),用來(lái)度量正常詞語(yǔ)和異常詞語(yǔ)分詞帶來(lái)的誤差;
等價(jià)為以下模型:
2.如權(quán)利要求1所述基于大數(shù)據(jù)環(huán)境下的多源數(shù)據(jù)聚合抽樣方法,其特征在于,所述基于大數(shù)據(jù)環(huán)境下的多源數(shù)據(jù)聚合抽樣方法進(jìn)一步包括:
步驟一,通過(guò)數(shù)據(jù)源采集模塊采集多個(gè)原始數(shù)據(jù)源,每一原始數(shù)據(jù)源包括數(shù)據(jù)源名稱(chēng)和至少一個(gè)關(guān)聯(lián)域;
步驟二,中央控制模塊通過(guò)預(yù)處理模塊利用數(shù)據(jù)處理程序?qū)Σ杉臄?shù)據(jù)源進(jìn)行清洗、識(shí)別、去除冗余操作;
步驟三,通過(guò)策略列表構(gòu)建模塊利用構(gòu)建程序根據(jù)原始數(shù)據(jù)源,獲取原始策略列表,對(duì)原始策略列表中的原始策略進(jìn)行排序,形成數(shù)據(jù)源間策略列表;
步驟四,通過(guò)數(shù)據(jù)融合模塊利用融合程序?qū)⒉煌瑏?lái)源數(shù)據(jù)集進(jìn)行融合處理;
步驟五,通過(guò)分詞模塊將融合后的文件進(jìn)行分詞,形成文件詞語(yǔ)的二維詞頻矩陣;
步驟六,通過(guò)抽樣模塊利用抽樣程序選取數(shù)據(jù)目標(biāo)導(dǎo)向的種子根節(jié)點(diǎn)關(guān)鍵詞語(yǔ),輸入滾雪球抽樣深度,在種子根節(jié)點(diǎn)數(shù)據(jù)的基礎(chǔ)上,設(shè)定均衡校驗(yàn)數(shù)值,循環(huán)匹對(duì)各個(gè)詞語(yǔ),進(jìn)行滾雪球抽樣;
步驟七,通過(guò)顯示模塊利用顯示器顯示采集的多源數(shù)據(jù)。
3.如權(quán)利要求2所述基于大數(shù)據(jù)環(huán)境下的多源數(shù)據(jù)聚合抽樣方法,其特征在于,預(yù)處理模塊處理方法包括:
(1)根據(jù)預(yù)設(shè)條件抽取異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)上傳到分布式文件系統(tǒng)HDFS進(jìn)行存儲(chǔ);
(2)采用Spark框架將分布式文件系統(tǒng)HDFS中的數(shù)據(jù)加載到內(nèi)存,清除重復(fù)數(shù)據(jù)、噪聲數(shù)據(jù),進(jìn)行格式變換操作;
(3)對(duì)清洗后的數(shù)據(jù),識(shí)別出同一個(gè)實(shí)體的不同表示方法,正確地識(shí)別出的所有不同實(shí)體,對(duì)同一實(shí)體的數(shù)據(jù)進(jìn)行合并;
(4)采用基于哈希值的重復(fù)數(shù)據(jù)刪除技術(shù),去除冗余數(shù)據(jù)。
4.如權(quán)利要求3所述基于大數(shù)據(jù)環(huán)境下的多源數(shù)據(jù)聚合抽樣方法,其特征在于,所述步驟(1)中,從異構(gòu)數(shù)據(jù)源中讀取結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化大數(shù)據(jù),上傳到分布式文件系統(tǒng)HDFS進(jìn)行存儲(chǔ);
所述異構(gòu)數(shù)據(jù)源的格式包括:Txt、Csv、Xsl、數(shù)據(jù)庫(kù)數(shù)據(jù)、jpg、mp4,并提供接口標(biāo)準(zhǔn)以便擴(kuò)展新數(shù)據(jù)源;
對(duì)于文本文件,包括Txt、Csv,通過(guò)設(shè)計(jì)文本存儲(chǔ)函數(shù),從文本文件中讀取文本數(shù)據(jù),存儲(chǔ)到分布式文件系統(tǒng)HDFS中;
對(duì)于Xsl文件,通過(guò)設(shè)計(jì)Xsl存儲(chǔ)函數(shù),從Excel文件中讀取excel數(shù)據(jù),存儲(chǔ)到分布式文件系統(tǒng)HDFS中;
對(duì)于數(shù)據(jù)庫(kù)數(shù)據(jù),包括MySQL、Oracle,通過(guò)數(shù)據(jù)庫(kù)訪問(wèn)接口ODBC或JDBC從數(shù)據(jù)庫(kù)中讀取,存儲(chǔ)到分布式文件系統(tǒng)HDFS中;
對(duì)于其他類(lèi)型的文件,包括jpg、mp4,通過(guò)設(shè)計(jì)相應(yīng)的文件存儲(chǔ)函數(shù),讀取相應(yīng)的數(shù)據(jù)源中的數(shù)據(jù),存儲(chǔ)到分布式文件系統(tǒng)HDFS中。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于浙江科技學(xué)院,未經(jīng)浙江科技學(xué)院許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910373940.8/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 醫(yī)學(xué)影像原始數(shù)據(jù)調(diào)度方法和醫(yī)學(xué)影像傳輸系統(tǒng)
- 多源數(shù)據(jù)聚合方法及系統(tǒng)
- 數(shù)據(jù)表批量授權(quán)方法及裝置
- 一種基于大數(shù)據(jù)環(huán)境下的多源數(shù)據(jù)聚合抽樣方法及系統(tǒng)
- OLAP數(shù)據(jù)分析遷移方法及系統(tǒng)
- 數(shù)據(jù)集成方法及裝置
- 數(shù)據(jù)處理方法、裝置和設(shè)備
- 一種企業(yè)安全環(huán)保及安防監(jiān)控?cái)?shù)據(jù)的數(shù)倉(cāng)建設(shè)方法和系統(tǒng)
- 報(bào)表處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 基于跨域數(shù)據(jù)的評(píng)估模型的優(yōu)化方法及設(shè)備
- 用于根據(jù)客戶(hù)驅(qū)動(dòng)的查詢(xún)來(lái)提供增強(qiáng)匹配的方法和系統(tǒng)
- 一種新穎的多源數(shù)據(jù)模糊聚類(lèi)算法
- 一種多源海量數(shù)據(jù)處理系統(tǒng)及方法
- 一種船端多源PNT融合與評(píng)估系統(tǒng)
- 電網(wǎng)自動(dòng)化系統(tǒng)多源數(shù)據(jù)接入及展示方法
- 一種工廠多源能耗數(shù)據(jù)并行處理系統(tǒng)及方法
- 用于配電網(wǎng)多源數(shù)據(jù)庫(kù)的高吞吐率數(shù)據(jù)處理方法
- 多源多模態(tài)數(shù)據(jù)的處理系統(tǒng)及應(yīng)用該系統(tǒng)的方法
- 一種多源數(shù)據(jù)報(bào)表的生成方法、系統(tǒng)以及執(zhí)行方法
- 一種多源異構(gòu)數(shù)據(jù)的描述方法、解析方法及裝置
- 基于大數(shù)據(jù)平臺(tái)的網(wǎng)絡(luò)安全實(shí)施系統(tǒng)及方法
- 基于事件驅(qū)動(dòng)的智慧城市大數(shù)據(jù)體系及處理方法
- 一種大數(shù)據(jù)應(yīng)用開(kāi)發(fā)的系統(tǒng)及方法
- 家用設(shè)備報(bào)告的生成方法、大數(shù)據(jù)系統(tǒng)和存儲(chǔ)介質(zhì)
- 一種基于計(jì)算機(jī)大數(shù)據(jù)的平臺(tái)架構(gòu)
- 一種大數(shù)據(jù)處理系統(tǒng)
- 面向工業(yè)4.0的時(shí)空大數(shù)據(jù)分布式存儲(chǔ)檢索方法及系統(tǒng)
- 一種聯(lián)網(wǎng)式醫(yī)療大數(shù)據(jù)分級(jí)傳輸方法及系統(tǒng)
- 一種大數(shù)據(jù)信息監(jiān)控方法、裝置及計(jì)算機(jī)設(shè)備
- 一種知識(shí)產(chǎn)權(quán)大數(shù)據(jù)情報(bào)檢索系統(tǒng)
- 一種數(shù)據(jù)同步處理方法、裝置和單點(diǎn)登錄系統(tǒng)
- 數(shù)據(jù)同步方法和裝置
- 切換數(shù)據(jù)源的方法及系統(tǒng)
- 多數(shù)據(jù)源的數(shù)據(jù)遷移方法
- 數(shù)據(jù)源補(bǔ)充方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)源切換方法及系統(tǒng)
- 一種基于多個(gè)數(shù)據(jù)源調(diào)節(jié)工業(yè)自動(dòng)化的操作系統(tǒng)
- 從不同數(shù)據(jù)源中獲取數(shù)據(jù)的方法、裝置及計(jì)算機(jī)設(shè)備
- 一種動(dòng)態(tài)數(shù)據(jù)源查詢(xún)方法及裝置
- 一種訪問(wèn)多數(shù)據(jù)源的方法及系統(tǒng)





