[發明專利]基于窗口的流式數據缺失處理方法有效
| 申請號: | 201810215615.4 | 申請日: | 2018-03-15 |
| 公開(公告)號: | CN108650065B | 公開(公告)日: | 2021-09-10 |
| 發明(設計)人: | 沈中;秦超;楊清海 | 申請(專利權)人: | 西安電子科技大學 |
| 主分類號: | H04L1/18 | 分類號: | H04L1/18;H04L12/807;G06K9/62 |
| 代理公司: | 西安長和專利代理有限公司 61227 | 代理人: | 黃偉洪 |
| 地址: | 710071 陜西省*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 窗口 數據 缺失 處理 方法 | ||
本發明屬于信息檢索及其數據庫結構技術領域,公開了一種基于窗口的流式數據缺失處理方法,包括:輸入需要處理的含有缺失數據的數據流;判斷流式數據是否缺失;動態滑動窗口評估;窗口鎖定;不完備信息處理;輸出處理后的完備數據流結果。通過對流式數據提供滑動窗口,根據數據流的大小動態調整窗口大小;利用數據內部的時間和空間特性對缺失數據進行填補,對流式數據的缺失填補。本發明具有分類精度較高,運行時間復雜度低,計算資源利用率高等特點,有效的克服了現有處理方法存在的方式單一,時空復雜度高等問題。
技術領域
本發明屬于無線通信、信息檢索及其數據庫結構技術及領域,尤其涉及一種基于窗口的流式數據缺失處理方法。
背景技術
現有技術一提出采用三階段法進行填充,第一階段特征挑選階段即挑選具有缺失數據的特征和完備數據特征,然后利用K最近鄰方法填充,最后利用貝葉斯定理進行后驗校正。但是利用K最近鄰方法本身具有一定缺陷,參數的選取對結果的影響很大,可能由于K值的選取不合適而造成結果誤差較大,而且K最近鄰方法計算復雜度高在流式數據處理過程中會造成很大時延,同時因為使用貝葉斯定理需要數據的統計特性,而在流式數據的情況下,無法精確獲得數據的統計結果,因此該方法不適用于具有流式數據的缺失處理。現有技術二利用分類器方法來對數據進行分類,然后基于同類數據中的相關性,對同一類中的缺失數據利用該類數據集數據均值進行填充,從而提高缺失數據處理精度。但該方法利用的分類器方法是基于不相關數據來進行,即具有不相關屬性的一些數據才可以進行分類,如果數據集內部數據的關聯性很大,即每種數據之間都是關聯的,那么該方法就無法將它們分開,因此就無法進行填充。傳感器網絡中的數據本身就存在時間和空間相關性,對同一環境數據進行感知時,各個傳感器獲得的數據內部具有相關,利用該方法無法將它們分類開,因此在此場景之下該方法不適用,而且分類器方法本身存在一個分類的過程,該過程耗時計算量大,在面對流失數據時同樣會存在處理延時較大的問題,因此該方法不適用于流式數據處理。
(1)采用三階段法進行填充形式單一,無法解決多重缺失填補問題,同時無法滿足流式數據處理需要的低時延的條件。
(2)利用分類器來分類并利用分類后的數據進行缺失數據填充,該方法無法解決具有內部數據屬性之間具有較關聯大關系的數據的分類問題
(3)現有技術主要針對靜態數據集的數據填充,在面對流式數據的缺失處理問題時,其方法在計算時時間復雜度和空間復雜度高,同時沒有解決數據流的流量控制問題。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安電子科技大學,未經西安電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810215615.4/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





