[發明專利]數據處理方法、裝置、介質及設備在審

申請號：	201911348079.6	申請日：	2019-12-24
公開（公告）號：	CN113032374A	公開（公告）日：	2021-06-25
發明（設計）人：	詹偉偉;辜國強	申請（專利權）人：	北京數聚鑫云信息技術有限公司
主分類號：	G06F16/215	分類號：	G06F16/215;G06F16/2458;G06F16/25
代理公司：	北京名華博信知識產權代理有限公司 11453	代理人：	苗源
地址：	100015 北京市朝陽區酒仙***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	數據處理方法裝置介質設備
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本文是關于一種數據處理方法、裝置、介質及設備。數據處理方法包括：根據待處理數據的數據類型及使用場景，確定n個數據處理步驟，其中n為大于等于2的整數；在模板庫中選擇流程模板，所述流程模板包括與所述數據處理步驟相對應的模板組件；基于所述數據類型和所述使用場景，調整模板組件的參數，構建數據處理流程；導入所述待處理數據，執行所述數據處理流程，輸出結果數據。實現數據處理流程模板化，能有效擴大數據處理流程的適用范圍，提高流程復用的可能性，節省成本。

技術領域

本文涉及數據處理，尤其涉及數據處理方法、裝置、介質及設備。

背景技術

隨著信息技術的高速發展，人們積累的數據量正在急速膨脹。海量的數據中隱藏了巨大的價值，從海量數據中挖掘出潛在的價值將是一項巨大的挑戰。

相關技術中，為了從數據中發現潛在的信息，往往是從一堆不規則的數據開始的，先對數據進行簡單的探索，再對數據進行清洗，使雜亂的數據初步規范，然后再經過集成、規約、變換等操作對數據進行預處理。隨后對數據建模，選擇出適用于特定場景的最佳模型并根據實際情況調整模型參數，再使用模型得到結果。從數據到結果這一過程尤為繁瑣，往往會耗費大量的時間和人力。

處理過程一般包括如下步驟：①探索數據，尋找分析入口；②進行數據預處理，比如：數據的清洗、集成、規約、變換等；③進行特征工程，選取特征；④對問題建模，構建模型，調整參數；⑤使用模型進行計算，得到結果。在這個過程中，和結果直接相關的就是選取的模型。一般情況下，模型往往和某些特定數據強相關，若數據變化，整個過程幾乎就需要重來，缺乏靈活性。不僅如此，模型還往往和預測的方向相關聯，即使數據一樣，只要預測的方向發生了變化，也可能導致重新選擇模型并調整參數。整個過程十分復雜，很難實現自動化，效率也很難提高。

發明內容

為克服相關技術中存在的問題，本文提供一種數據處理的方法、裝置、介質及設備。

根據本文的第一方面，提供一種數據處理方法，包括：

根據待處理數據的數據類型及使用場景，確定n個數據處理步驟，其中 n為大于等于2的整數；

在模板庫中選擇流程模板，所述流程模板包括與所述數據處理步驟相對應的模板組件；

基于所述數據類型和所述使用場景，調整模板組件的參數，構建數據處理流程；

導入所述待處理數據，執行所述數據處理流程，輸出結果數據。

所述模板組件的參數包括：機器模型鍵-值，數據源鍵-值，流程參數鍵- 值。

所述基于所述數據類型和所述使用場景，調整模板組件的參數，構建數據處理流程包括：

基于所述數據類型，調整所述數據源鍵-值為待處理數據的類型-名稱，以使所述數據處理流程導入所述待處理數據；

基于所述使用場景，調整所述流程參數鍵-值為設定的鍵-值，以使所述數據處理流程按所述設定的鍵-值處理所述待處理數據；

或者，調整所述機器模型鍵-值為需調用的機器模型的類型-名稱，以使所述數據處理流程調用所述需調用的機器模型。