[發明專利]一種數據處理方法、裝置、服務器及介質在審
| 申請號: | 202011140429.2 | 申請日: | 2020-10-22 |
| 公開(公告)號: | CN112287005A | 公開(公告)日: | 2021-01-29 |
| 發明(設計)人: | 由磊;張俊杰;李新鵬;李賀;毛勇崗 | 申請(專利權)人: | 北京銳安科技有限公司 |
| 主分類號: | G06F16/25 | 分類號: | G06F16/25 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 孟金喆 |
| 地址: | 100044 北京市海淀區西小口*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據處理 方法 裝置 服務器 介質 | ||
1.一種數據處理方法,其特征在于,包括:
獲取來源數據集模式的各字段名和目標數據集模式的各字段名;
將所述來源數據集模式的每個字段名與所述目標數據集模式的所有字段名進行組合得到字段名組合;
將所述字段名組合中的所有字段名進行向量化處理,將字段名的向量組合輸入至訓練好的映射策略生成模型得到所述來源數據集模式映射到所述目標數據集模式的映射策略。
2.根據權利要求1所述的方法,其特征在于,所述將所述字段名組合中的所有字段名進行向量化,包括:
將每個字段名進行分詞得到分詞結果;
根據每個字段名的分詞結果計算分詞的詞向量;
將每個字段名的所有分詞的詞向量相加使字段名向量化。
3.根據權利要求1所述的方法,其特征在于,所述映射策略生成模型的訓練方法,包括:
獲取樣本來源數據集模式的各字段名和樣本目標數據集模式的各字段名;
將所述樣本來源數據集模式的每個字段名與所述樣本目標數據集模式的所有字段名進行組合得到樣本字段名組合;
將所述樣本字段名組合中的所有字段名進行向量化,得到樣本字段名的向量組合;
根據所述樣本字段名的向量組合的映射關系得到預設映射策略;
將所述樣本字段名組合的向量、輸入至待訓練的映射策略生成模型得到輸出結果;
計算輸出結果與所述預設映射策略之間的誤差,將誤差反向輸入至所述待訓練的映射策略生成模型中,調節所述待訓練的映射策略生成模型中的網絡參數,迭代執行上述訓練方法,直到完成預設次數的訓練或者待訓練的映射策略生成模型的輸出結果達到預設精度時,確定所述映射策略生成模型訓練完成。
4.根據權利要求3所述的方法,其特征在于,所述根據所述樣本字段名的向量組合的映射關系得到預設映射策略,包括:
將目標數據集模式的各字段名進行編碼,得到映射標記;
根據樣本來源數據集模式的各字段名和樣本目標數據集模式的各字段名的語義確定樣本來源數據集模式的各字段名與樣本目標數據集模式的各字段名之間的映射關系;
根據所述映射關系和所述映射標記確定樣本來源數據集模式轉換到樣本目標數據集模式的預設映射策略。
5.根據權利要求3所述的方法,其特征在于,所述映射策略生成模型的訓練方法,還包括:
當獲取到新的訓練樣本時,將所述新的訓練樣本隨機插入到已有的訓練樣本中,所述待訓練的映射策略生成模型增加訓練預設次數。
6.根據權利要求1所述的方法,其特征在于,所述映射策略生成模型為長短記憶神經網絡模型。
7.根據權利要求1所述的方法,其特征在于,還包括:
將所述映射策略進行顯示,并接受所述映射策略的正確性判斷結果;
將確定正確的映射策略用于繼續訓練映射策略生成模型。
8.一種數據處理裝置,其特征在于,包括:
字段名獲取模塊,用于獲取來源數據集模式的各字段名和目標數據集模式的各字段名;
字段名組合模塊,用于將所述來源數據集模式的每個字段名與所述目標數據集模式的所有字段名進行組合得到字段名組合;
映射策略獲取模塊,用于將所述字段名組合中的所有字段名進行向量化,將字段名的向量組合輸入至訓練好的映射策略生成模型得到所述來源數據集模式映射到所述目標數據集模式的映射策略。
9.一種服務器,其特征在于,所述服務器包括:
一個或多個處理器;
存儲裝置,用于存儲一個或多個程序;
當所述一個或多個程序被所述一個或多個處理器執行,使得所述一個或多個處理器實現如權利要求1-7中任一所述的數據處理方法。
10.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,該程序被處理器執行時實現如權利要求1-7中任一所述的數據處理方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京銳安科技有限公司,未經北京銳安科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011140429.2/1.html,轉載請聲明來源鉆瓜專利網。





