[發(fā)明專利]一種數(shù)據(jù)預(yù)處理方法在審
| 申請?zhí)枺?/td> | 202110265579.4 | 申請日: | 2021-03-11 |
| 公開(公告)號: | CN112883096A | 公開(公告)日: | 2021-06-01 |
| 發(fā)明(設(shè)計)人: | 郭文斌;何漢武;楊賢;胡昱;鄒漢榮;丘康平;王鵬 | 申請(專利權(quán))人: | 廣東工業(yè)大學(xué) |
| 主分類號: | G06F16/25 | 分類號: | G06F16/25;G06F16/215;G06F16/28 |
| 代理公司: | 北京集佳知識產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 許慶勝 |
| 地址: | 510060 廣東省*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 數(shù)據(jù) 預(yù)處理 方法 | ||
1.一種數(shù)據(jù)預(yù)處理方法,其特征在于,包括以下步驟:
在接收到數(shù)據(jù)預(yù)處理指令時,從多個數(shù)據(jù)源中讀取待處理的數(shù)據(jù);
將所述待處理的數(shù)據(jù)中的非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù);
根據(jù)預(yù)處理匹配庫對所述結(jié)構(gòu)化數(shù)據(jù)進行聚類得到聚類數(shù)據(jù);
對所述聚類數(shù)據(jù)進行數(shù)據(jù)標準化、數(shù)據(jù)聯(lián)合和數(shù)據(jù)清洗后得到預(yù)處理后的數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的數(shù)據(jù)預(yù)處理方法,其特征在于,根據(jù)預(yù)處理匹配庫對所述結(jié)構(gòu)化數(shù)據(jù)進行聚類得到聚類數(shù)據(jù)包括:
對所述結(jié)構(gòu)化數(shù)據(jù)的特征列數(shù)據(jù)進行輪詢,檢測空特征數(shù)據(jù),通過強制轉(zhuǎn)換得到數(shù)值型數(shù)據(jù),根據(jù)字符串動態(tài)匹配得到非數(shù)值型數(shù)據(jù)和混合型數(shù)據(jù);其中,所述預(yù)處理匹配庫包括字符特征匹配庫和特征正則匹配庫,所述混合型數(shù)據(jù)包括數(shù)值型數(shù)據(jù)和非數(shù)值型數(shù)據(jù)。
3.根據(jù)權(quán)利要求2所述的數(shù)據(jù)預(yù)處理方法,其特征在于,通過強制轉(zhuǎn)換得到數(shù)值型數(shù)據(jù)之前還包括:檢測所述特征列數(shù)據(jù)是否為時間格式的數(shù)據(jù),若是則所述特征列數(shù)據(jù)為時間日期型數(shù)據(jù)。
4.根據(jù)權(quán)利要求3所述的數(shù)據(jù)預(yù)處理方法,其特征在于,通過強制轉(zhuǎn)換得到數(shù)值型數(shù)據(jù)包括:將所述特征列數(shù)據(jù)進行浮點型強制轉(zhuǎn)換,若轉(zhuǎn)換成功,則所述特征列數(shù)據(jù)為單維數(shù)值型數(shù)據(jù);否則,去掉所述特征列數(shù)據(jù)中的多余字符得到多維數(shù)值型數(shù)據(jù)。
5.根據(jù)權(quán)利要求4所述的數(shù)據(jù)預(yù)處理方法,其特征在于,根據(jù)字符串動態(tài)匹配得到非數(shù)值型數(shù)據(jù)和混合型數(shù)據(jù)包括:
將所述特征列數(shù)據(jù)進行字符串動態(tài)匹配,若匹配到數(shù)字,則所述特征列數(shù)據(jù)為混合型數(shù)據(jù),否則所述特征列數(shù)據(jù)為非數(shù)值型數(shù)據(jù)。
6.根據(jù)權(quán)利要求5所述的數(shù)據(jù)預(yù)處理方法,其特征在于,根據(jù)字符串動態(tài)匹配得到非數(shù)值型數(shù)據(jù)和混合型數(shù)據(jù)之后還包括:
根據(jù)字符特征匹配庫將所述非數(shù)值型數(shù)據(jù)分為單維非數(shù)值型數(shù)據(jù)和多維非數(shù)值型數(shù)據(jù),具體為:判斷所述非數(shù)值型數(shù)據(jù)是否全部匹配到單個字符,若是,則為單維非數(shù)值型數(shù)據(jù),否則為多維非數(shù)值型數(shù)據(jù)。
7.根據(jù)權(quán)利要求6所述的數(shù)據(jù)預(yù)處理方法,其特征在于,根據(jù)字符串動態(tài)匹配得到非數(shù)值型數(shù)據(jù)和混合型數(shù)據(jù)之后還包括:
根據(jù)特征正則匹配庫將所述混合型數(shù)據(jù)分為規(guī)律型數(shù)據(jù)和非規(guī)律型數(shù)據(jù),具體為:判斷所述混合型數(shù)據(jù)是否全部符合特征正則匹配庫,若符合,則所述混合型數(shù)據(jù)為規(guī)律型數(shù)據(jù),否則所述混合型數(shù)據(jù)為非規(guī)律型數(shù)據(jù)。
8.根據(jù)權(quán)利要求1-7任意一項所述的數(shù)據(jù)預(yù)處理方法,其特征在于,所述多個數(shù)據(jù)源包括數(shù)據(jù)庫數(shù)據(jù)、文件數(shù)據(jù)、云端數(shù)據(jù)和爬蟲數(shù)據(jù)中的至少兩者。
9.根據(jù)權(quán)利要求8所述的數(shù)據(jù)預(yù)處理方法,其特征在于,從多個數(shù)據(jù)源中讀取待處理的數(shù)據(jù)包括:
根據(jù)所述待處理的數(shù)據(jù)的存儲位置,自動識別并調(diào)用對應(yīng)的標準API接口讀取所述待處理的數(shù)據(jù)。
10.根據(jù)權(quán)利要求9所述的數(shù)據(jù)預(yù)處理方法,其特征在于,對所述聚類數(shù)據(jù)進行數(shù)據(jù)標準化、數(shù)據(jù)聯(lián)合和數(shù)據(jù)清洗后得到規(guī)格化數(shù)據(jù)之后還包括:
將所述預(yù)處理后的數(shù)據(jù)存儲在數(shù)據(jù)庫中,用于數(shù)據(jù)集成、數(shù)據(jù)挖掘、數(shù)據(jù)決策和/或企業(yè)的在線聯(lián)機分析。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣東工業(yè)大學(xué),未經(jīng)廣東工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110265579.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





