[發(fā)明專利]序列挖掘模型的訓練方法、序列數(shù)據(jù)的處理方法及設備有效
| 申請?zhí)枺?/td> | 202010099547.7 | 申請日: | 2020-02-18 |
| 公開(公告)號: | CN111352965B | 公開(公告)日: | 2023-09-08 |
| 發(fā)明(設計)人: | 陶冶;金歡;金洪波 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458;G06Q40/03 |
| 代理公司: | 北京三高永信知識產權代理有限責任公司 11138 | 代理人: | 祝亞男 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 序列 挖掘 模型 訓練 方法 數(shù)據(jù) 處理 設備 | ||
1.一種序列挖掘模型的訓練方法,其特征在于,所述方法包括:
獲取信用卡管理系統(tǒng)下的第一序列樣本,所述第一序列樣本包括所述信用卡管理系統(tǒng)下的歷史序列數(shù)據(jù),所述歷史序列數(shù)據(jù)包括信用卡用戶歷史的交易金額序列和歷史交易時間間隔序列中的至少之一;
確定所述第一序列樣本的標簽狀態(tài),所述第一序列樣本的標簽狀態(tài)用于指示所述第一序列樣本具備標簽信息的情況;
根據(jù)所述標簽狀態(tài),從序列挖掘框架中選取子模型構建序列挖掘模型,所述序列挖掘模型用于確定所述信用卡管理系統(tǒng)下序列數(shù)據(jù)的標簽信息,所述標簽信息用于指示正常使用信用卡或異常使用信用卡;
采用所述第一序列樣本對所述序列挖掘模型進行訓練;
其中,所述序列挖掘框架包括第一子模型、第二子模型和第三子模型;所述第一子模型用于獲取所述序列數(shù)據(jù)的隱向量表示;所述第二子模型用于在所述標簽狀態(tài)滿足第一條件的情況下,根據(jù)所述序列數(shù)據(jù)的隱向量表示確定所述序列數(shù)據(jù)的標簽信息,所述第一條件包括所述標簽狀態(tài)為所述第一序列樣本不存在標簽信息;所述第三子模型用于在所述標簽狀態(tài)滿足第二條件的情況下,根據(jù)所述序列數(shù)據(jù)的隱向量表示確定所述序列數(shù)據(jù)的標簽信息,所述第二條件包括所述標簽狀態(tài)為所述第一序列樣本至少部分存在標簽信息;
在所述標簽狀態(tài)為所述第一序列樣本不存在標簽信息的情況下,所述序列挖掘模型包括所述第一子模型和所述第二子模型;
所述采用所述第一序列樣本對所述序列挖掘模型進行訓練,包括:
采用所述第一序列樣本對所述第一子模型進行預訓練,得到預訓練的第一子模型;
通過所述預訓練的第一子模型對所述第一序列樣本進行處理,得到所述第一序列樣本的隱向量表示;
對所述第一序列樣本的靜態(tài)特征進行正則化處理,以減小所述第一序列樣本的靜態(tài)特征的數(shù)量級,得到正則化處理后的靜態(tài)特征;其中,所述靜態(tài)特征是基于以下靜態(tài)數(shù)據(jù)中的至少之一確定的:所述信用卡用戶的注冊電話號碼數(shù)量、所在國家、所屬國籍;
對所述第一序列樣本的隱向量表示進行泛化處理,以調整所述第一序列樣本的隱向量表示的數(shù)量級,得到泛化處理后的隱向量表示;
結合所述正則化處理后的靜態(tài)特征和所述泛化處理后的隱向量表示,得到所述第一序列樣本的優(yōu)化向量表示;其中,所述正則化處理后的靜態(tài)特征的數(shù)值大小和所述泛化處理后的隱向量表示的數(shù)值大小位于相同的數(shù)量級上;
采用所述第一序列樣本和所述第一序列樣本的優(yōu)化向量表示,對所述預訓練的第一子模型和所述第二子模型進行聯(lián)合訓練,得到所述序列挖掘模型。
2.根據(jù)權利要求1所述的方法,其特征在于,在所述標簽狀態(tài)為所述第一序列樣本至少部分存在標簽信息,且第二序列樣本的數(shù)量大于第三序列樣本的數(shù)量的情況下,所述序列挖掘模型包括所述第一子模型和所述第三子模型;其中,所述第二序列樣本是指所述第一序列樣本中存在標簽信息的序列樣本;所述第三序列樣本是指所述第一序列樣本中不存在標簽信息的序列樣本;
所述采用所述第一序列樣本對所述序列挖掘模型進行訓練,包括:
采用所述第一序列樣本對所述第一子模型進行預訓練,得到預訓練的第一子模型;
通過所述預訓練的第一子模型對所述第二序列樣本進行處理,得到所述第二序列樣本的隱向量表示;
采用所述第二序列樣本和所述第二序列樣本的隱向量表示,對所述預訓練的第一子模型和所述第三子模型進行聯(lián)合訓練,得到所述序列挖掘模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010099547.7/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。





