[發(fā)明專利]數(shù)據(jù)處理的方法及裝置有效
| 申請?zhí)枺?/td> | 201710141560.2 | 申請日: | 2017-03-10 |
| 公開(公告)號: | CN106778048B | 公開(公告)日: | 2019-07-16 |
| 發(fā)明(設(shè)計)人: | 徐驕 | 申請(專利權(quán))人: | 廣州視源電子科技股份有限公司 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 孟金喆;胡彬 |
| 地址: | 510530 廣東省*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 數(shù)據(jù)處理 方法 裝置 | ||
本發(fā)明實施例公開了一種數(shù)據(jù)處理的方法及裝置。該方法包括:獲取數(shù)據(jù)樣本;根據(jù)未包含缺失值的數(shù)據(jù)樣本的各屬性項的屬性信息確定未包含缺失值的數(shù)據(jù)樣本的各屬性項中與缺失值對應(yīng)的頻繁項集;從頻繁項集中選擇填充屬性項;根據(jù)填充屬性項中與包含缺失值的數(shù)據(jù)樣本中的缺失值的對應(yīng)屬性的屬性值確定填充值,并根據(jù)填充值更新包含缺失值的數(shù)據(jù)樣本。本發(fā)明實施例通過采用上述技術(shù)方案,根據(jù)未包含缺失值的各屬性項的屬性信息確定用于填充缺失值的填充屬性項,綜合考慮缺失值對應(yīng)屬性與其它各屬性之間的關(guān)聯(lián)關(guān)系,可以提高填充值的正確性與數(shù)據(jù)信息的有效性,提高缺失值的處理速度,減少處理缺失值所需的時間。
技術(shù)領(lǐng)域
本發(fā)明涉及信息處理技術(shù)領(lǐng)域,尤其涉及一種數(shù)據(jù)處理的方法及裝置。
背景技術(shù)
近年來,隨著信息處理技術(shù)的發(fā)展,大數(shù)據(jù)被越來越多的應(yīng)用到了導(dǎo)航系統(tǒng)或城市規(guī)劃等各個領(lǐng)域。
目前的大數(shù)據(jù)架構(gòu)通常是以數(shù)據(jù)流為導(dǎo)向來進行數(shù)據(jù)處理的,即,首先從數(shù)據(jù)源獲取數(shù)據(jù)并將獲取到的數(shù)據(jù)進行存儲,然后對數(shù)據(jù)進行預(yù)處理,再根據(jù)預(yù)處理后的數(shù)據(jù)進行數(shù)據(jù)建模、數(shù)據(jù)分析與數(shù)據(jù)挖掘,最后實現(xiàn)數(shù)據(jù)變現(xiàn)。由此可見,數(shù)據(jù)預(yù)處理是大數(shù)據(jù)結(jié)構(gòu)中整個數(shù)據(jù)處理過程的基礎(chǔ),其質(zhì)量與精準(zhǔn)度可能會直接影響到后續(xù)環(huán)節(jié)中數(shù)據(jù)維度建模的指標(biāo)定義、數(shù)據(jù)挖掘算法的選擇或數(shù)據(jù)的準(zhǔn)確性度量等,是數(shù)據(jù)處理過程的重要環(huán)節(jié)之一。
數(shù)據(jù)預(yù)處理的過程中通常會涉及到對數(shù)據(jù)中的缺失值進行處理,現(xiàn)有技術(shù)中,在對數(shù)據(jù)進行處理時一般會采用人工填寫、刪除含缺失值的記錄數(shù)據(jù)(即刪除法)、使用特殊字符(如NULL)填充、或者使用統(tǒng)計學(xué)上的均值或眾數(shù)進行缺失值的填補等方法對數(shù)據(jù)中的缺失值進行處理。但是,當(dāng)數(shù)據(jù)量較多或達(dá)到一定級別時,人工填寫需耗費較多的時間與精力,無法滿足數(shù)據(jù)流實時快速傳輸與處理的需求;刪除含缺失值的記錄數(shù)據(jù)、使用統(tǒng)一的特殊字符或者使用統(tǒng)計學(xué)上的均值或眾數(shù)進行缺失值填充不具有針對性,會導(dǎo)致數(shù)據(jù)準(zhǔn)精確性和有效性降低,由此可見,現(xiàn)有技術(shù)無法同時滿足缺失值處理的高效率和高精度的要求。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明實施例提供一種數(shù)據(jù)處理的方法及裝置,以解決現(xiàn)有技術(shù)中的數(shù)據(jù)處理方法無法同時滿足缺失值處理的高效率和高精度的要求的技術(shù)問題。
第一方面,本發(fā)明實施例提供了一種數(shù)據(jù)處理的方法,包括:
獲取數(shù)據(jù)樣本,所述數(shù)據(jù)樣本包括包含缺失值的數(shù)據(jù)樣本和未包含缺失值的數(shù)據(jù)樣本;
根據(jù)所述未包含缺失值的數(shù)據(jù)樣本的各屬性項的屬性信息確定所述未包含缺失值的數(shù)據(jù)樣本的各屬性項中與所述缺失值對應(yīng)的頻繁項集;
從所述頻繁項集中選擇填充屬性項;
根據(jù)所述填充屬性項中與所述包含缺失值的數(shù)據(jù)樣本中的缺失值的對應(yīng)屬性的屬性值確定填充值,并根據(jù)所述填充值更新所述包含缺失值的數(shù)據(jù)樣本。
第二方面,本發(fā)明實施例還提供了一種數(shù)據(jù)處理的裝置,包括:
數(shù)據(jù)樣本獲取模塊,用于獲取數(shù)據(jù)樣本,所述數(shù)據(jù)樣本包括包含缺失值的數(shù)據(jù)樣本和未包含缺失值的數(shù)據(jù)樣本;
頻繁項集確定模塊,用于根據(jù)所述未包含缺失值的數(shù)據(jù)樣本的各屬性項的屬性信息確定所述未包含缺失值的數(shù)據(jù)樣本的各屬性項中與所述缺失值對應(yīng)的頻繁項集;
填充屬性項選擇模塊,用于從所述頻繁項集中選擇填充屬性項;
填充值確定模塊,用于根據(jù)所述填充屬性項中與所述包含缺失值的數(shù)據(jù)樣本中的缺失值的對應(yīng)屬性的屬性值確定填充值,并根據(jù)所述填充值更新所述包含缺失值的數(shù)據(jù)樣本。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣州視源電子科技股份有限公司,未經(jīng)廣州視源電子科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710141560.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)處理設(shè)備,數(shù)據(jù)處理方法,和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理電路、數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法、數(shù)據(jù)處理控制方法
- 數(shù)據(jù)處理設(shè)備、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及計算機可讀取的記錄介質(zhì)
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序





