[發明專利]處理用戶行為序列的方法及裝置在審
| 申請號: | 202111283645.7 | 申請日: | 2021-11-01 |
| 公開(公告)號: | CN114090401A | 公開(公告)日: | 2022-02-25 |
| 發明(設計)人: | 朱文文;賈凡;任然;陳鴻;吳軍;胡憶桐;俞超 | 申請(專利權)人: | 支付寶(杭州)信息技術有限公司 |
| 主分類號: | G06F11/34 | 分類號: | G06F11/34;G06N3/08 |
| 代理公司: | 北京億騰知識產權代理事務所(普通合伙) 11309 | 代理人: | 張明;周良玉 |
| 地址: | 310000 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 處理 用戶 行為 序列 方法 裝置 | ||
本說明書實施例提供一種處理用戶行為序列的方法及裝置,在處理用戶行為序列的方法中,獲取N個樣本用戶各自的用戶行為序列,并對其進行數據增強,得到多個正樣本對和多個負樣本對。每個正樣本對包括按照不同業務,對同一用戶行為序列進行拆分所得到的兩個子序列。每個負樣本對包括來自不同用戶行為序列的兩個子序列。將各正/負樣本對輸入神經網絡模型,該神經網絡模型包括相同的兩個子模型,用于處理輸入樣本對中的兩個子序列,以得到各自的行為向量。對于任意的正/負樣本對,根據其中的兩個子序列各自的行為向量,計算對應的距離。以最小化各正樣本對的距離,最大化各負樣本的距離為目標,更新神經網絡模型,以用于處理待分析的用戶行為序列。
技術領域
本說明書一個或多個實施例涉及機器學習領域,尤其涉及一種處理用戶行為序列的方法及裝置。
背景技術
在許多場景下,需要對用戶行為序列進行分析和處理。用戶行為序列,是用戶在日常操作使用中產生的一系列點擊、訪問、購買等事件的發生過程,可表示為事件集合的時間序列,它蘊含了用戶的細粒度習慣偏好等特點,是用戶級別機器學習模型的重要特征來源之一。然而,行為序列數據本身是表征空間巨大的變長時間序列,要從中抽取固定維度、有代表性、能夠用于分類回歸等問題的特征向量還需經過一定處理。一般來說,將用戶行為序列處理為特征向量的處理過程,常采用人工特征工程,或是特定場景下基于標簽(label)的監督學習的方式。可以理解,人工特征工程耗費極大的人力和時間,且效果嚴重依賴于人工的業務經驗和效率。而監督學習的方式,則需要獲得特定業務場景下標注好的標簽。例如,如果要基于用戶行為序列分析用戶賬戶是否被盜,就需要大量的樣本行為序列,以及這些樣本行為序列對應的用戶事實上是否為被盜賬戶的標簽。而許多業務場景下,由于標簽難以獲得而常常面臨標簽缺乏的問題,導致難以進行監督學習。
因此,希望能有改進的方案,更為有效地對用戶行為序列進行處理,以得到適于后續分析的特征向量。
發明內容
本說明書一個或多個實施例描述了一種處理用戶行為序列的方法及裝置,其中采用包含兩個相同子模型的神經網絡模型,將用戶行為序列處理為特征向量,該神經網絡模型基于對比學習的方法訓練得到,不依賴于業務標簽,從而可以高效實現用戶行為序列的處理。
第一方面,提供了一種處理用戶行為序列的方法,包括:
獲取N個樣本用戶各自的用戶行為序列;
分別對各個用戶行為序列進行數據增強,得到訓練樣本集;所述訓練樣本集包括多個正樣本對和多個負樣本對;其中的每個正樣本對至少包括按照不同業務,對同一用戶行為序列進行拆分所得到的兩個子序列;每個負樣本對至少包括按照不同業務,分別對至少兩個用戶行為序列進行拆分所得到的若干子序列中,來自不同用戶行為序列的兩個子序列;
將各正樣本對和各負樣本對輸入神經網絡模型,所述神經網絡模型包括具有相同網絡結構和網絡參數的兩個子模型,用于處理輸入樣本對中的兩個子序列,以得到各自對應的行為向量;
對于任意的正樣本對或負樣本對,根據其中的兩個子序列各自對應的行為向量,計算對應的距離;
以最小化所述各正樣本對中兩個子序列間的距離,最大化所述各負樣本對中兩個子序列間的距離為目標,更新所述神經網絡模型,以用于處理待分析的用戶行為序列。
第二方面,提供了一種處理用戶行為序列的裝置,包括:
獲取單元,用于獲取N個樣本用戶各自的用戶行為序列;
增強單元,用于分別對各個用戶行為序列進行數據增強,得到訓練樣本集;所述訓練樣本集包括多個正樣本對和多個負樣本對;其中的每個正樣本對至少包括按照不同業務,對同一用戶行為序列進行拆分所得到的兩個子序列;每個負樣本對至少包括按照不同業務,分別對至少兩個用戶行為序列進行拆分所得到的若干子序列中,來自不同用戶行為序列的兩個子序列;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于支付寶(杭州)信息技術有限公司,未經支付寶(杭州)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111283645.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種云打印服務系統及其使用方法
- 下一篇:一種健康服務信息用多功能咨詢設備





