[發明專利]一種數據處理方法、裝置及計算機可讀存儲介質在審
| 申請號: | 202110002489.6 | 申請日: | 2021-01-04 |
| 公開(公告)號: | CN112765231A | 公開(公告)日: | 2021-05-07 |
| 發明(設計)人: | 楚翹;謝曜任;孫亞萌 | 申請(專利權)人: | 珠海格力電器股份有限公司;珠海聯云科技有限公司 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458 |
| 代理公司: | 北京同達信恒知識產權代理有限公司 11291 | 代理人: | 黃麗 |
| 地址: | 519070 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據處理 方法 裝置 計算機 可讀 存儲 介質 | ||
一種數據處理方法、裝置及計算機可讀存儲介質,能夠實現對待修正數據的全面修正與清洗,并減少數據修正過程中相關人員的手動操作。方法具體包括:獲取待修正數據;在標準數據庫中確定與所述待修正數據對應的N個標準數據,其中N為大于或等于2的整數;利用所述待修正數據和所述N個標準數據中每個標準數據計算出一個概率,共得到N個概率,所述概率用于表征所述待修正數據與所述每個標準數據之間的字數、符號、內容以及格式完全相同的概率;根據所述N個概率中最大概率所對應的標準數據對所述待修正數據進行修正。
技術領域
本發明涉及數據處理技術領域,尤其涉及一種數據處理方法、裝置及計算機可讀存儲介質。
背景技術
隨著信息科學的飛速發展,相關技術人員可以對多樣數據進行挖掘,從而發現數據中所包含的價值。但是由于數據來源多樣,數據的質量也參差不齊,由此給數據價值的挖掘帶來了許多不便。因此,如何將不同質量、不同格式的數據統一成符合預設要求的數據是需要解決的問題。
發明內容
本發明實施例提供了一種數據處理方法、裝置及計算機可讀存儲介質,能夠實現對待修正數據的全面修正與清洗,并減少數據清洗過程中相關人員的手動操作。
第一方面,本發明實施例提供一種數據處理方法,包括:
獲取待修正數據;
在標準數據庫中確定與所述待修正數據對應的N個標準數據;N為大于或等于2的整數;
利用所述待修正數據和所述N個標準數據中每個標準數據計算出一個概率,共得到N個概率,所述概率用于表征所述待修正數據與所述每個標準數據之間的字數、符號、內容以及格式完全相同的概率;
根據所述N個概率中最大概率所對應的標準數據對所述待修正數據進行修正。
可選的,所述標準數據庫中包括M個標準數據,所述M為大于等于2的整數,所述在標準數據庫中確定與所述待修正數據對應的N個標準數據,包括:
遍歷所述M個標準數據,利用所述待修正數據和所述M個標準數據中每個標準數據計算出一個相似系數,共得到M個相似系數;所述相似系數用于表征所述每個標準數據與所述待修正數據中相同部分的占比;
確定所述M個相似系數中相似系數大于預設值的N個相似系數,所述N個相似系數對應的N個標準數據即為與所述待修正數據對應的N個標準數據,其中N為不大于M的正整數。
可選的,所述根據所述N個概率中最大概率所對應的標準數據對所述待修正數據進行修正,包括:
將所述待修正數據更改為與所述最大概率所對應的標準數據。
可選的,獲取待修正數據之前,所述方法還包括:
檢測到輸入操作,所述輸入操作用于輸入數據;
判斷輸入的數據是否規范;
如果規范,將輸入數據作為待修正數據;
如果不規范,輸出提示信息,提示用戶所述數據不滿足所述預設格式。
可選的,判斷輸入的數據是否規范,包括:判斷輸入的數據的字數、符號、格式是否符合規范。
可選的,所述方法還包括:記錄日志,所述日志中所述待修正數據與所述最大概率對應的標準數據以一對一形式進行存儲。
第二方面,本發明實施例提供一種數據處理裝置,包括:
獲取單元,用于獲取待修正數據;
確定單元,用于在標準數據庫中確定與所述待修正數據對應的N個標準數據;N為大于或等于2的整數;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于珠海格力電器股份有限公司;珠海聯云科技有限公司,未經珠海格力電器股份有限公司;珠海聯云科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110002489.6/2.html,轉載請聲明來源鉆瓜專利網。





