[發明專利]一種數據處理方法、裝置及電子設備有效
| 申請號: | 201811309439.7 | 申請日: | 2018-11-05 |
| 公開(公告)號: | CN109299887B | 公開(公告)日: | 2022-04-19 |
| 發明(設計)人: | 袁錦程;王維強;許遼薩;趙聞飆;易燦;葉蕓 | 申請(專利權)人: | 創新先進技術有限公司 |
| 主分類號: | G06Q10/06 | 分類號: | G06Q10/06;G06F16/2458;G06F16/35 |
| 代理公司: | 北京國昊天誠知識產權代理有限公司 11315 | 代理人: | 許振新;朱文杰 |
| 地址: | 英屬開曼群島大開曼*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據處理 方法 裝置 電子設備 | ||
1.一種數據處理方法,所述方法包括:
獲取待處理數據中的多個變量和所述多個變量對應的值構成的數據集,其中,所述待處理數據為用于建模的數據;
從所述數據集中確定出至少一條序列化數據,所述序列化數據中包含被預設分隔符分隔開的多個序列化元素,所述多個序列化元素是多個第一變量的值,且所述多個第一變量的值均與第二變量的同一值相對應,所述第一變量和所述第二變量屬于所述多個變量中的變量;
基于預設自然語言處理模型分別對所述至少一條序列化數據進行處理,得到所述至少一條序列化數據對應的第一文本特征向量;
基于預設降維模型對所述第一文本特征向量進行降維處理,得到第二文本特征向量;
判斷利用包含所述第二文本特征向量的特征向量建立的預設模型的預設評價指標是否滿足預設條件;若滿足,將所述數據集的描述參數和所述預設自然語言處理模型的模型參數的對應關系進行存儲。
2.根據權利要求1所述的方法,其中,所述從所述數據集中確定出至少一條序列化數據,包括:
基于所述數據集中所述多個變量對應的值,繪制所述多個變量中的一個變量的值相對于另一個變量的值的直方圖,得到至少一個直方圖;
基于所述至少一個直方圖,確定所述數據集中與所述第二變量的同一值相對應的所述多個第一變量的值;
將所述多個第一變量的值用所述預設分隔符分開,形成一條序列化數據。
3.根據權利要求1所述的方法,
所述預設降維模型包括主成分分析PCA、lightgbm和信息價值指標IV值計算模型中的任一種。
4.根據權利要求1所述的方法,還包括:
將所述第二文本特征向量與第三文本特征向量進行歸并,得到第四文本特征向量,所述第三文本特征向量為基于預設算法對所述待處理數據進行處理后生成的。
5.根據權利要求4所述的方法,
其中,所述將所述第二文本特征向量與第三文本特征向量進行歸并,得到第四文本特征向量,包括:
將所述第二文本特征向量與所述第三文本特征向量進行合并;
對合并后的文本特征向量進行歸一化處理;
刪除歸一化處理后的文本特征向量中共線性大于第一閾值的文本特征,得到所述第四文本特征向量。
6.根據權利要求4所述的方法,所述判斷利用包含所述第二文本特征向量的特征向量建立的預設模型的預設評價指標是否滿足預設條件,包括:
判斷利用所述第四文本特征向量建立的預設模型的預設評價指標是否滿足預設條件;
其中,所述基于預設自然語言處理模型對所述序列化數據進行處理,得到所述至少一條序列化數據對應的第一文本特征向量,包括:
基于所述對應關系和所述數據集的描述參數,確定目標模型參數;
基于模型參數為所述目標模型參數的所述預設自然語言處理模型,對所述至少一條序列化數據進行處理,得到所述至少一條序列化數據對應的第一文本特征向量。
7.根據權利要求4所述的方法,所述判斷利用包含所述第二文本特征向量的特征向量建立的預設模型的預設評價指標是否滿足預設條件,包括:
判斷利用所述第四文本特征向量建立的預設模型的預設評價指標是否滿足預設條件;
所述方法還包括:
在所述預設評價指標不滿足預設條件時,基于預設方式增大降維比例后重新執行所述基于預設降維模型對所述第一文本特征向量進行降維處理的步驟。
8.根據權利要求7所述的方法,
如果所述預設降維模型為lightgbm模型,其中,
所述基于預設降維模型對所述第一文本特征向量進行降維處理,得到第二文本特征向量,包括:基于lightgbm模型確定所述第一文本特征向量中的文本特征的重要程度,將所述第一文本特征向量中所述重要程度小于或等于第二閾值的文本特征刪除,得到所述第二文本特征向量;
所述基于預設方式增大降維比例,包括:通過增大所述第二閾值,增大降維比例。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于創新先進技術有限公司,未經創新先進技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811309439.7/1.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





