[發(fā)明專利]基于大數(shù)據(jù)的EXCEL數(shù)據(jù)源清洗方法、系統(tǒng)、電子設(shè)備和存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202110364627.5 | 申請日: | 2021-04-06 |
| 公開(公告)號: | CN112800049B | 公開(公告)日: | 2021-08-03 |
| 發(fā)明(設(shè)計)人: | 孫東祥;常衛(wèi)濤;張坤;鄭媛媛;王茹 | 申請(專利權(quán))人: | 航天神舟智慧系統(tǒng)技術(shù)有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/28 |
| 代理公司: | 北京華創(chuàng)智道知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11888 | 代理人: | 彭隨麗 |
| 地址: | 100029 北京市朝陽區(qū)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 數(shù)據(jù) excel 數(shù)據(jù)源 清洗 方法 系統(tǒng) 電子設(shè)備 存儲 介質(zhì) | ||
1.一種基于大數(shù)據(jù)的EXCEL數(shù)據(jù)源清洗方法,其特征在于,包括:
解析并結(jié)構(gòu)化EXCEL數(shù)據(jù)源;
對解析并結(jié)構(gòu)化后的EXCEL數(shù)據(jù)源中的數(shù)據(jù)進行關(guān)鍵屬性名稱的標準化處理;
對標準化后的EXCEL數(shù)據(jù)源進行清洗;
根據(jù)標準數(shù)據(jù)庫對清洗后的EXCEL數(shù)據(jù)源進行標準匹配并完善數(shù)據(jù)信息;
對標準化后的EXCEL數(shù)據(jù)源進行清洗,包括:
對EXCEL數(shù)據(jù)源中的數(shù)據(jù)進行預(yù)處理;
構(gòu)建知識庫模型,將預(yù)處理后的EXCEL數(shù)據(jù)源中的數(shù)據(jù)與知識庫模型中儲存的非標準數(shù)據(jù)作對照,如果相等,則確定EXCEL數(shù)據(jù)源中的數(shù)據(jù)為對應(yīng)的標準數(shù)據(jù);
構(gòu)建設(shè)置有標準數(shù)據(jù)的標準庫,對EXCEL數(shù)據(jù)源中的數(shù)據(jù)進行深層清洗后確認與標準庫中的標準數(shù)據(jù)相似的數(shù)據(jù),并將其替換為標準庫中的標準數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的基于大數(shù)據(jù)的EXCEL數(shù)據(jù)源清洗方法,其特征在于,解析并結(jié)構(gòu)化EXCEL數(shù)據(jù)源,包括:
上傳EXCEL數(shù)據(jù)源,指定數(shù)據(jù)源中標題行數(shù);
根據(jù)標題行數(shù)區(qū)分標題行和數(shù)據(jù)區(qū);
根據(jù)標題最后一行自動構(gòu)建數(shù)據(jù)模型,定義相應(yīng)字段名稱;
建立字段與標題的對應(yīng)關(guān)系;
將EXCEL數(shù)據(jù)源的數(shù)據(jù)存入數(shù)據(jù)庫。
3.根據(jù)權(quán)利要求1所述的基于大數(shù)據(jù)的EXCEL數(shù)據(jù)源清洗方法,其特征在于,對解析并結(jié)構(gòu)化后的EXCEL數(shù)據(jù)源中的數(shù)據(jù)進行關(guān)鍵屬性名稱的標準化處理為對EXCEL數(shù)據(jù)源中的關(guān)鍵字段數(shù)據(jù)與標準數(shù)據(jù)進行匹配。
4.根據(jù)權(quán)利要求1所述的基于大數(shù)據(jù)的EXCEL數(shù)據(jù)源清洗方法,其特征在于,所述預(yù)處理包括:
使用JAVA中去除前后空格的方法去除數(shù)據(jù)中的前后空格;
使用JAVA中字符替換的方法,將空格替換為符號,去除字符串中的所有空格;
使用JAVA中小寫轉(zhuǎn)大寫的方法,把數(shù)據(jù)的小寫字母轉(zhuǎn)為大寫字母;
使用正則表達式校驗手機號。
5.根據(jù)權(quán)利要求4所述的基于大數(shù)據(jù)的EXCEL數(shù)據(jù)源清洗方法,其特征在于,使用余弦值算法,根據(jù)EXCEL數(shù)據(jù)源中的關(guān)鍵字段,找到標準庫中的相對應(yīng)的數(shù)據(jù),其中所述余弦值算法為:
;
式中:x和y分別表示兩個向量,i表示向量的緯度,xi表示向量x第i緯度的坐標點,yi表示向量y第i緯度的坐標點,θ表示x向量和y向量的夾角,n表示x向量和y向量是n緯的;
余弦值越接近1,則表明夾角越接近0度,即兩個向量越相似,夾角等于0,即兩個向量相等。
6.根據(jù)權(quán)利要求5所述的基于大數(shù)據(jù)的EXCEL數(shù)據(jù)源清洗方法,其特征在于,列出與EXCEL數(shù)據(jù)源中的數(shù)據(jù)相對應(yīng)的標準庫數(shù)據(jù),確認與EXCEL數(shù)據(jù)源中的數(shù)據(jù)匹配的標準數(shù)據(jù),確認后,使用sql的update方法,直接把EXCEL數(shù)據(jù)源中的數(shù)據(jù)替換為標準庫的數(shù)據(jù)。
7.一種基于大數(shù)據(jù)的EXCEL數(shù)據(jù)源清洗系統(tǒng),其特征在于,包括:
數(shù)據(jù)解析模塊,用于解析并結(jié)構(gòu)化EXCEL數(shù)據(jù)源;
標準化處理模塊,對解析并結(jié)構(gòu)化后的EXCEL數(shù)據(jù)源中的數(shù)據(jù)進行關(guān)鍵屬性名稱的標準化處理;
數(shù)據(jù)清洗模塊,對標準化后的EXCEL數(shù)據(jù)源進行清洗;
數(shù)據(jù)標準匹配模塊,根據(jù)標準數(shù)據(jù)庫對清洗后的EXCEL數(shù)據(jù)源進行標準匹配并完善數(shù)據(jù)信息;
對標準化后的EXCEL數(shù)據(jù)源進行清洗,包括:
對EXCEL數(shù)據(jù)源中的數(shù)據(jù)進行預(yù)處理;
構(gòu)建知識庫模型,將預(yù)處理后的EXCEL數(shù)據(jù)源中的數(shù)據(jù)與知識庫模型中儲存的非標準數(shù)據(jù)作對照,如果相等,則確定EXCEL數(shù)據(jù)源中的數(shù)據(jù)為對應(yīng)的標準數(shù)據(jù);
構(gòu)建設(shè)置有標準數(shù)據(jù)的標準庫,對EXCEL數(shù)據(jù)源中的數(shù)據(jù)進行深層清洗后確認與標準庫中的標準數(shù)據(jù)相似的數(shù)據(jù),并將其替換為標準庫中的標準數(shù)據(jù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于航天神舟智慧系統(tǒng)技術(shù)有限公司,未經(jīng)航天神舟智慧系統(tǒng)技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110364627.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 一種基于異步處理的大數(shù)據(jù)量Excel文件導(dǎo)出方法
- 一種數(shù)據(jù)EXCEL導(dǎo)入和導(dǎo)出的工具
- 一種Excel合并方法和系統(tǒng)
- 基于數(shù)據(jù)配置生成Excel表格和圖例的系統(tǒng)及方法
- 一種業(yè)務(wù)系統(tǒng)導(dǎo)入EXCEL數(shù)據(jù)的方法
- 一種Excel數(shù)據(jù)文件的處理方法及裝置
- 一種excel導(dǎo)入導(dǎo)出的實現(xiàn)方法及裝置
- Excel數(shù)據(jù)的導(dǎo)出方法及裝置、電子設(shè)備
- 一種大數(shù)據(jù)excel文件導(dǎo)入的系統(tǒng)及方法
- 腳本生成方法、裝置、計算機設(shè)備及存儲介質(zhì)
- 一種數(shù)據(jù)同步處理方法、裝置和單點登錄系統(tǒng)
- 數(shù)據(jù)同步方法和裝置
- 切換數(shù)據(jù)源的方法及系統(tǒng)
- 多數(shù)據(jù)源的數(shù)據(jù)遷移方法
- 數(shù)據(jù)源補充方法、裝置、計算機設(shè)備和存儲介質(zhì)
- 一種數(shù)據(jù)源切換方法及系統(tǒng)
- 一種基于多個數(shù)據(jù)源調(diào)節(jié)工業(yè)自動化的操作系統(tǒng)
- 從不同數(shù)據(jù)源中獲取數(shù)據(jù)的方法、裝置及計算機設(shè)備
- 一種動態(tài)數(shù)據(jù)源查詢方法及裝置
- 一種訪問多數(shù)據(jù)源的方法及系統(tǒng)





