[發明專利]數據的存儲方法和裝置有效
| 申請號: | 201610730521.1 | 申請日: | 2016-08-25 |
| 公開(公告)號: | CN107783993B | 公開(公告)日: | 2021-11-30 |
| 發明(設計)人: | 葉一舟;張鋒;楊磊 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F16/22 | 分類號: | G06F16/22;G06F16/95 |
| 代理公司: | 北京博浩百睿知識產權代理有限責任公司 11134 | 代理人: | 宋子良 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據 存儲 方法 裝置 | ||
本發明公開了一種數據的存儲方法和裝置。其中,該方法包括:獲取至少一個操作對象的日志信息,日志信息包括:任意一個操作對象的多個行為數據,以及每個行為數據之間跳轉時的關聯因子;基于樹狀存儲結構保存任意一個操作對象的行為數據和每個行為數據之間跳轉時的關聯因子,得到每個操作對象的網絡行為關系數據;以用戶訪問操作對象過程的會話為單位,確定會話中包含的多個操作對象;將會話中包含的多個對象的網絡行為關系數據進行關聯存儲,得到用戶在會話內發生的網絡訪問結果。本發明解決了現有技術采用時序列存儲數據的方法,對用戶的網絡訪問信息做了嚴重割裂,導致存儲結果關聯性差的技術問題。
技術領域
本發明涉及數據存儲領域,具體而言,涉及一種數據的存儲方法和裝置。
背景技術
在當前的大數據時代,為了快速對用戶行為分析和建模,需要將海量大數據以某種形式進行存儲,目前的常用幾種方法是:(1)基于單行為、單業務場景的“煙囪模式”存儲方式,即用戶在網絡中每個業務場景下每發生一次行為就會存為一行(即一條記錄),業務域、行為域之間相互獨立;(2)在方法(1)的基礎上嚴格按照用戶行為的發生時間將用戶的所有行為簡單的進行線性串接在一起,即時序列存儲。
而時序列存儲的主要的缺點是由于嚴格的按照時間的先后順序將用戶session(會話)內的所有行為串接在一起,這種方式無法快速的進行用戶跨場景的行為跳轉分析,同時一定程度上對用戶行為做了嚴重的割裂,無法高效的分析用戶完整的網絡購物路徑,且數據分析復雜度較高。
圖1是根據現有技術的一種生成訓練數據集的結構示意圖,下面以購物網站的無線搜索訓練表(包括A客戶端和B客戶端)的制作過程作為示例,結合圖1所示的示例:
第一步,獲取樣本數據,獲取樣本數據首先需要將A客戶端搜索的曝光日志、點擊日志和成交日志進行日志清晰、數據去噪以及繁瑣的關聯工作,然后生成基于A的產品粒度的曝光-點擊-成交全鏈路行為寬表(basetable),對于B需要重復同樣的工作,生成B的全鏈路行為寬表,再將兩張行為寬表進行計算邏輯和字段內容的兼容、合并,最后生成用于訓練數據的樣本。
第二步,獲取特征數據,獲取特征數據通常需要對全網用戶行為來做統計特征,包括PC的Aplus(A+)日志、無線的UT(User track,用戶追蹤)日志、全網成交日志(剔除反作弊訂單)、用戶維表、產品維表、賣家維表等等,并對全網用戶行為數據進行關聯和統計,得到產品、賣家、買家等單維度特征表,再將多個單維度特征表整合起來,最終做成全量特征寬表。
當前上述兩個步驟都完成完后,原始的訓練數據集才能生成。每個算法工程師都要重復進行上述過程來建模,80%的時間都花在訓練集的生成上面,開發效率低下,資源浪費嚴重。
再以場景和場景之間的跳轉作為示例,在用戶行為數據采用時序列存儲的情況下,需要從最早時間節點到最晚時間節點遍歷一次才能實現,如果需求的數據處于最晚的時間節點上,其時間復雜度為:O(n1+n2+n3+n4)。;在用戶的行為數據利用單行為數據存儲,需要先匯總每個用戶的所有行為,然后在行為集合中再做曝光頁A到B的數據分析,時間復雜度更高。
同理,在對行為數據之間的關系進行分析時,在用戶行為數據采用時序列存儲的情況下,其時間復雜度為O(n1+n2),而在用戶行為數據采用單行為存儲方法的情況下,時間復雜度更高。如果現有技術中需要分析產品點擊和詳情頁內點擊之間的關系(產品點擊滿意度分析),在用戶行為數據采用時序列存儲的情況下,其時間復雜度為O(n2+n3),在用戶行為數據采用單行為存儲方法的情況下,時間復雜度同樣更高。在對產品的購物路徑進行分析時,在用戶行為數據采用時序列存儲的情況下,時間復雜度為O(n1+n2+n3+n4),在用戶行為數據采用單行為存儲方法的情況下,時間復雜度同樣更高。
針對現有技術采用時序列存儲數據的方法,對用戶的網絡訪問信息做了嚴重割裂,導致存儲結果關聯性差的問題,目前尚未提出有效的解決方案。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610730521.1/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





