[發明專利]一種基于人工智能的大數據清洗方法及系統在審
| 申請號: | 202211340839.0 | 申請日: | 2022-10-29 |
| 公開(公告)號: | CN115687321A | 公開(公告)日: | 2023-02-03 |
| 發明(設計)人: | 王磊;楊柳 | 申請(專利權)人: | 慕學星凡(成都)科技有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/9035;G06F16/906;G06F16/907 |
| 代理公司: | 北京市浩東律師事務所 11499 | 代理人: | 李雁 |
| 地址: | 610000 四川省成都市錦江*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 人工智能 數據 清洗 方法 系統 | ||
1.一種基于人工智能的大數據清洗系統,其特征在于,包括初始數據導入模塊、數據分類模塊、過濾信息導入模塊、過濾選定模塊、第一過濾模塊、第二過濾模塊、第三過濾模塊、第四過濾模塊、二次過濾模塊、結果輸出模塊與綜合評價模塊;
所述初始數據導入模塊用于用戶導入待清洗的數據,待清洗數據被發送到數據分類模塊;
所述數據分類模塊用于對待清洗的數據進行處理獲取到數據分類信息,所述數據分類信息包括單一分類數據與混合分類數據,所述單一分類數據與混合分類數據的數據類型包括視頻數據、音頻數據、文字數據與圖片數據;
所述過濾信息導入模塊用于用戶導入過濾特征信息,過濾特征信息包括視頻特征、音頻特征、文字特征與圖片特征;
所述過濾選定模塊用于根據數據分類信息選定數據過濾模式,過濾模式包括單一過濾模式與綜合過濾模式;
所述第一過濾模塊用于接收數據過濾模式后,對過濾特征信息進行處理,之后對待清洗的數據進行視頻特征的初步清洗,獲取到第一過濾數據;
所述第二過濾模塊用于接收數據過濾模式后,對過濾特征信息進行處理,之后對待清洗的數據進行圖片特征的初步清洗,獲取到第二過濾數據;
所述第三過濾模塊用于接收數據過濾模式后,對過濾特征信息進行處理,之后對待清洗的數據進行音頻特征的初步清洗,獲取到第三過濾數據;
所述第四過濾模塊用于接收數據過濾模式后,對過濾特征信息進行處理,之后對待清洗的數據進行文字特征的初步清洗,獲取到第四過濾數據;
所述初步清洗后的信息被發送到二次過濾模塊,所述二次過濾模塊對過濾特征信息進行處理獲取到相似特征信息,并對初步清洗后的信息進行相似特征的過濾,過濾后的清洗結束數據被導入到結果輸出模塊與綜合評價模塊;
所述結果導出模塊用于將清洗結束數據發送到預設接收終端,所述綜合評價模塊用于對清洗結束數據進行處理生成清洗評價信息,之后將清洗評價信息發送到管理員接收終端。
2.根據權利要求1所述的一種基于人工智能的大數據清洗系統,其特征在于:所述單一過濾模式與綜合過濾模式的具體處理過程如下:當選定為單一過濾模式時,提取出導入到的過濾特征信息,之后選定對應的一個過濾模塊進行特征過濾;
當選定為綜合過濾模式時,提取出導入到的過濾特征信息,之后選定對應多個過濾模塊進行特征過濾。
3.根據權利要求1所述的一種基于人工智能的大數據清洗系統,其特征在于:所述第一過濾模塊的具體過濾過程如下:提取出導入的過濾特征信息,從過濾特征信息中提取出視頻特征信息,將視頻特征信息導入到原始的待清洗的數據中,從待清洗的數據中檢索出與該視頻特征信息相似度超過預設值的視頻特征信息,將其標記為第一清洗特征信息,記錄下第一清洗特征信息的數量與位置信息后,將第一清洗特征信息從原始的待清洗的數據中清除獲取到第一過濾數據;
所述第二過濾模塊的具體過濾過程如下:提取出過濾特征信息,從過濾特征信息中提取出圖片特征信息,將圖片特征信息導入到原始的待清洗的數據中,從待清洗的數據中檢索出與該特征信息相似度超過預設值的圖片特征信息,將其標記為第二清洗特征信息,記錄下第二清洗特征信息的數量與位置信息后,將第二清洗特征信息從原始的待清洗的數據中清除獲取到第二過濾數據;
所述第三過濾模塊的具體過濾過程如下:提取出的過濾特征信息,從過濾特征信息中提取出音頻特征信息,將音頻特征信息導入到原始的待清洗的數據中,從待清洗的數據中檢索出與該特征信息相似度超過預設值的音頻特征信息,將其標記為第三清洗特征信息,記錄下第三清洗特征信息的數量與位置信息后,將第三清洗特征信息從原始的待清洗的數據中清除獲取到第三過濾數據;
所述第四過濾模塊的具體過濾過程如下:提取出的過濾特征信息,從過濾特征信息中提取出文字特征信息,將文字特征信息導入到原始的待清洗的數據中,從待清洗的數據中檢索出與該特征信息相似度超過預設值的文字特征信息,將其標記為第四清洗特征信息,記錄下第四清洗特征信息的數量與位置信息后,將第四清洗特征信息從原始的待清洗的數據中清除獲取到第四過濾數據;
所述第一過濾數據、第二過濾數據、第三過濾數據與第四過濾數據中均包括原始數據、過濾后的數據、清洗特征位置信息與清洗特征數量信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于慕學星凡(成都)科技有限公司,未經慕學星凡(成都)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211340839.0/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





