[發明專利]結構化數據處理方法及裝置有效
| 申請號: | 201910258145.4 | 申請日: | 2019-04-01 |
| 公開(公告)號: | CN110162558B | 公開(公告)日: | 2023-06-23 |
| 發明(設計)人: | 袁錦程;王維強;許遼薩;趙聞飆;席云;易燦 | 申請(專利權)人: | 創新先進技術有限公司 |
| 主分類號: | G06F16/25 | 分類號: | G06F16/25;G06F16/242;G06F18/243;G06N3/04 |
| 代理公司: | 北京國昊天誠知識產權代理有限公司 11315 | 代理人: | 許振新;朱文杰 |
| 地址: | 英屬開曼群島大開曼*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 結構 數據處理 方法 裝置 | ||
本申請涉及計算機技術領域,公開了一種結構化數據處理方法及裝置。該方法包括:獲取結構化數據,并對所述結構化數據進行預處理;將所述預處理之后的結構化數據轉換成文本數據,并對所述文本數據進行拼接,得到所述結構化數據對應的自然語言;基于所述自然語言生成所述結構化數據對應的向量;基于所述向量進行文本模型訓練,調整神經網絡的參數,得到用于加入樹模型的分數,并截取所述神經網絡的部分向量,將截取到的所述神經網絡的部分向量作為用于加入所述樹模型的變量。
技術領域
本申請涉及計算機技術領域。
背景技術
目前,模型構建技術已廣泛地應用于工業領域。
具體的,凡是用模型描述系統的因果關系或相互關系的過程都屬于建模。因描述的關系各異,所以實現這一過程的手段和方法也是多種多樣的。例如,可以通過對系統本身運動規律的分析,根據事物的機理來建模;也可以通過對系統的實驗或統計數據的處理,并根據關于系統的已有的知識和經驗來建模;還可以同時使用幾種方法。
但目前模型構建仍然的存在一些問題。
發明內容
本申請的目的在于提供一種結構化數據處理方法及裝置,能夠更好地解決靜態特征缺失率大,用戶行為稀疏等情況下無法有效使用數據的問題,從而可以利用稀疏矩陣的數據進行建模,提高了數據利用率。
為了解決上述問題,本申請公開了一種結構化數據處理方法,包括:
獲取結構化數據,并對該結構化數據進行預處理;
將該預處理之后的結構化數據轉換成文本數據,并對該文本數據進行拼接,得到該結構化數據對應的自然語言;
基于該自然語言生成該結構化數據對應的向量;
基于該向量進行文本模型訓練,調整神經網絡的參數,得到用于加入樹模型的分數,并截取該神經網絡的部分向量,將截取到的該神經網絡的部分向量作為用于加入該樹模型的變量。
在一個優選例中,在該基于該向量進行文本模型訓練,調整神經網絡的參數,得到用于加入樹模型的分數,并截取該神經網絡的部分向量,以將截取到的該神經網絡的部分向量作為用于加入該樹模型的變量的步驟之后,還包含:將該變量與該分數加入該樹模型。
在一個優選例中,在該截取該神經網絡的部分向量的步驟中,從全連接層、或循環神經網絡、或長短期記憶網絡、或卷積神經網絡截取部分向量。
在一個優選例中,該結構化數據是以下之一或它們的任意組合:夜間賭博交易次數、夜間交易金額、交易時候是否有短時間的返現。
在一個優選例中,在該基于該自然語言生成該結構化數據對應的向量的步驟中,通過以下任意一種方式生成該向量:word2vec,或cw2vec,或cwe。
在一個優選例中,在該基于該向量進行文本模型訓練,調整神經網絡的參數,得到用于加入樹模型的分數,并截取該神經網絡的部分向量,以將截取到的該神經網絡的部分向量作為用于加入該樹模型的變量的步驟中,進一步包含:使用該神經網絡進行調參,以得到一個最佳參數,該參數是指該神經網絡的神經元數。
本申請還公開了一種結構化數據處理裝置,包括:
預處理模塊:用于獲取結構化數據,并對該結構化數據進行預處理;
轉換模塊:用于將該預處理之后的結構化數據轉換成文本數據,并對該文本數據進行拼接,得到該結構化數據對應的自然語言;
向量生成模塊:用于基于該自然語言生成該結構化數據對應的向量;
調參與截取模塊:用于基于該向量進行文本模型訓練,調整神經網絡的參數,得到用于加入樹模型的分數,并截取該神經網絡的部分向量,將截取到的該神經網絡的部分向量作為用于加入該樹模型的變量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于創新先進技術有限公司,未經創新先進技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910258145.4/2.html,轉載請聲明來源鉆瓜專利網。





