[發(fā)明專利]一種物聯(lián)網(wǎng)數(shù)據(jù)清洗方法有效
| 申請(qǐng)?zhí)枺?/td> | 201310081635.4 | 申請(qǐng)日: | 2013-03-14 |
| 公開(公告)號(hào): | CN103177094B | 公開(公告)日: | 2017-02-22 |
| 發(fā)明(設(shè)計(jì))人: | 唐雪飛;陳科;石礫;韓春梅 | 申請(qǐng)(專利權(quán))人: | 成都康賽信息技術(shù)有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 成都宏順專利代理事務(wù)所(普通合伙)51227 | 代理人: | 周永宏 |
| 地址: | 610054 四川省成都市*** | 國(guó)省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 聯(lián)網(wǎng) 數(shù)據(jù) 清洗 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及物聯(lián)網(wǎng)數(shù)據(jù)處理領(lǐng)域,尤其涉及一種物聯(lián)網(wǎng)數(shù)據(jù)清洗方法。
背景技術(shù)
隨著傳感器、射頻識(shí)別(RFID)、全球定位系統(tǒng)、紅外感應(yīng)器、激光掃描器、氣體感應(yīng)器等各種裝置與技術(shù)的發(fā)展,現(xiàn)實(shí)中的一切事物將可能通過實(shí)時(shí)采集任何需要監(jiān)控、連接、互動(dòng)的物體或過程中,采集其聲、光、熱、電、力學(xué)、化學(xué)、生物、位置等各種需要的信息,與互聯(lián)網(wǎng)結(jié)合形成的一個(gè)巨大網(wǎng)絡(luò),這樣的一種巨型網(wǎng)絡(luò)稱之為物聯(lián)網(wǎng)。
由于物聯(lián)網(wǎng)的以上特性,在采集數(shù)據(jù)的過程中,產(chǎn)生大量各種格式相異、意義不同的海量數(shù)據(jù),而如何從這些數(shù)據(jù)中根據(jù)用戶的需要對(duì)數(shù)據(jù)進(jìn)行清洗,以達(dá)到數(shù)據(jù)有效利用的目的成為物聯(lián)網(wǎng)信息處理的重點(diǎn)。
傳統(tǒng)的數(shù)據(jù)清洗方式,絕大多數(shù)基于磁盤數(shù)據(jù)文件,在清洗過程中伴隨著大量對(duì)磁盤的I/O操作,盡管查詢優(yōu)化會(huì)在一定程度上改善效率,但是當(dāng)面對(duì)海量數(shù)據(jù)時(shí),頻繁的I/O操作還是直接成為影響性能的瓶頸。本發(fā)明針對(duì)以上的問題,發(fā)明了一種新的數(shù)據(jù)清洗方法,將物聯(lián)網(wǎng)數(shù)據(jù)加載至服務(wù)器內(nèi)存中,然后統(tǒng)一數(shù)據(jù)格式和數(shù)據(jù)結(jié)構(gòu)(Uniform-Delicate?B-Tree),利用數(shù)據(jù)結(jié)構(gòu)針對(duì)的清洗算法,在多臺(tái)服務(wù)器上,按照預(yù)先設(shè)定的規(guī)則對(duì)數(shù)據(jù)清洗,最大程度的減少I/O操作,從而在根本上解決傳統(tǒng)的性能瓶頸問題。
發(fā)明內(nèi)容
本發(fā)明針對(duì)以上的問題,發(fā)明了一種新的數(shù)據(jù)清洗方法,將物聯(lián)網(wǎng)數(shù)據(jù)加載至服務(wù)器內(nèi)存中,然后統(tǒng)一數(shù)據(jù)格式和數(shù)據(jù)結(jié)構(gòu)(Uniform-Delicate?B-Tree),利用數(shù)據(jù)結(jié)構(gòu)針對(duì)的清洗算法,在多臺(tái)服務(wù)器上,按照預(yù)先設(shè)定的規(guī)則對(duì)數(shù)據(jù)清洗,最大程度的減少I/O操作,從而在根本上解決傳統(tǒng)的性能瓶頸問題。
為實(shí)現(xiàn)上述目的,本發(fā)明采取以下技術(shù)方案:一種物聯(lián)網(wǎng)數(shù)據(jù)清洗方法,包括以下步驟:第一步:實(shí)施人員通過Web?Service獲取物聯(lián)網(wǎng)原始數(shù)據(jù);第二步:實(shí)施人員將原始數(shù)據(jù)重構(gòu)后,將其存儲(chǔ)在內(nèi)存中;第三步:實(shí)施人員將重構(gòu)后的原始數(shù)據(jù)重組為UDB樹;第四步:讀取預(yù)先設(shè)定的規(guī)則,進(jìn)行數(shù)據(jù)清洗。
優(yōu)選方案:第一步的詳細(xì)過程包括如下步驟:利用Web?Service的方式,對(duì)外提供數(shù)據(jù)服務(wù)接口,將數(shù)據(jù)統(tǒng)一傳輸至中心數(shù)據(jù)庫(kù),中心數(shù)據(jù)庫(kù)采用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù),為每種類型的設(shè)備創(chuàng)建各自的數(shù)據(jù)表,設(shè)備編號(hào)作為唯一識(shí)別號(hào),所有采集的原始數(shù)據(jù)將存儲(chǔ)在各自的數(shù)據(jù)表中。
優(yōu)選方案:第二步的詳細(xì)過程包括如下步驟:從中心數(shù)據(jù)庫(kù)獲得所有數(shù)據(jù)后,實(shí)施人員將這些原始數(shù)據(jù)組裝成為數(shù)據(jù)塊;在完成數(shù)據(jù)重構(gòu)后,再將這些數(shù)據(jù)塊加載至內(nèi)存中。
優(yōu)選方案:第三步的詳細(xì)過程包括如下步驟:利用UDB查詢算法,將第二步中的數(shù)據(jù)塊按照關(guān)鍵字開始索引,在找到相應(yīng)的位置后,再按照UDB插入算法將數(shù)據(jù)塊插入相應(yīng)的節(jié)點(diǎn)。
優(yōu)選方案:第四步的詳細(xì)過程包括如下步驟:在數(shù)據(jù)清洗時(shí),操作人員可以通過軟件配置,或者利用配置文件,對(duì)清洗規(guī)則進(jìn)行定義,在整個(gè)數(shù)據(jù)清洗過程中,將在清洗規(guī)則約定的條件下進(jìn)行清洗,且清洗時(shí),可以分為一個(gè)及以上個(gè)步驟,每個(gè)步驟都可以制定不同清洗規(guī)則。
優(yōu)選方案:第二步中所述內(nèi)存為計(jì)算機(jī)集群組成的內(nèi)存。
優(yōu)選方案:當(dāng)內(nèi)存不足以容納所有的數(shù)據(jù)時(shí),原始數(shù)據(jù)將保留在磁盤中,每次只將部分的數(shù)據(jù)組裝為數(shù)據(jù)塊并加載至內(nèi)存,內(nèi)存中的數(shù)據(jù)塊完成處理后,再?gòu)拇疟P中加載剩余的數(shù)據(jù)。
優(yōu)選方案:所述的清洗規(guī)則可以使用數(shù)據(jù)庫(kù)查詢語言或者腳本語言進(jìn)行創(chuàng)建和編輯。
綜上所述,由于采用了上述技術(shù)方案,本發(fā)明的具體有益效果是:充分利用內(nèi)存的容量存儲(chǔ)基礎(chǔ)數(shù)據(jù),從而減少了I/O開銷,提高了訪問效率;使用統(tǒng)一的數(shù)據(jù)格式,有利于數(shù)據(jù)快速解析,雖然在統(tǒng)一數(shù)據(jù)格式的過程中會(huì)消耗較多時(shí)間,但在解析數(shù)據(jù)時(shí),將會(huì)大大提高速度,從而提高整體速度;使用針對(duì)物聯(lián)網(wǎng)的數(shù)據(jù)結(jié)構(gòu),利用針對(duì)性強(qiáng)的搜索算法,提高檢索速度;利用計(jì)算機(jī)集群的優(yōu)勢(shì),并行進(jìn)行數(shù)據(jù)清洗過程,從而在根本上解決傳統(tǒng)的性能瓶頸問題。
附圖說明
圖1為中間節(jié)點(diǎn)示意圖;
圖2為數(shù)據(jù)節(jié)點(diǎn)示意圖;
圖3為數(shù)據(jù)塊示意圖;
圖4為UDB樹示意圖:
圖5數(shù)據(jù)清洗流程圖;
圖6為數(shù)據(jù)清洗流程圖。
具體實(shí)施方式
本說明書中公開的所有特征,或公開的所有方法或過程中的步驟,除了互相排斥的特征和/或步驟以外,均可以以任何方式組合。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于成都康賽信息技術(shù)有限公司,未經(jīng)成都康賽信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310081635.4/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 物聯(lián)網(wǎng)信息融合方法、物聯(lián)網(wǎng)終端設(shè)備和物聯(lián)網(wǎng)平臺(tái)
- 物聯(lián)網(wǎng)系統(tǒng)、物聯(lián)網(wǎng)服務(wù)提供及監(jiān)控方法
- 物聯(lián)網(wǎng)設(shè)備及其聯(lián)網(wǎng)配置方法、智能終端及物聯(lián)網(wǎng)系統(tǒng)
- 一種物聯(lián)網(wǎng)用戶設(shè)備接入系統(tǒng)及接入方法
- 一種資源獲取方法和裝置
- 一種視聯(lián)網(wǎng)數(shù)據(jù)的發(fā)送方法及系統(tǒng)
- 一種基于視聯(lián)網(wǎng)的通信連接建立方法及系統(tǒng)
- 一種基于視聯(lián)網(wǎng)的通信連接建立方法及系統(tǒng)
- 一種視聯(lián)網(wǎng)信息的處理方法及裝置
- 一種訪問視聯(lián)網(wǎng)終端的方法、系統(tǒng)、設(shè)備及存儲(chǔ)介質(zhì)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





