[發明專利]基于用戶上網行為用于人工智能算法的數據預處理方法在審
| 申請號: | 202010705027.6 | 申請日: | 2020-07-21 |
| 公開(公告)號: | CN111814092A | 公開(公告)日: | 2020-10-23 |
| 發明(設計)人: | 項亮;裴智暉 | 申請(專利權)人: | 上海數鳴人工智能科技有限公司 |
| 主分類號: | G06F16/958 | 分類號: | G06F16/958;G06F16/955;G06K9/62;H04L12/24;H04L12/26 |
| 代理公司: | 上海天辰知識產權代理事務所(特殊普通合伙) 31275 | 代理人: | 吳世華;陶金龍 |
| 地址: | 200436 上海市靜安*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 用戶 上網 行為 用于 人工智能 算法 數據 預處理 方法 | ||
1.一種基于用戶上網行為用于人工智能算法的數據預處理方法,其特征在于,包括:
步驟S1:獲取用戶的原始信息;其中,所述原始信息包括用戶基礎信息和上網行為數據信息,所述用戶基礎信息包括性別、年齡和歸屬地,所述上網行為數據信息包括上網時間、訪問URL地址和訪問網址頻率;
步驟S2:對所述用戶基礎信息進行處理;其中,
將用戶的所述性別按男、女、未知三種狀態進行分組,形成三個不同的數據組;
將用戶的所述年齡分成M年齡段,再加上一未知年齡段,分成M+1組,每一個用戶的所述年齡將落在有且只有一個的年齡段中;
將用戶的所述歸屬地按N個地位置區的劃分對應不同的數據字段,并增加一個未知字段,即分成N+1個數據字段;
步驟S3:對所述上網行為數據信息進行處理;包括:
步驟S31:根據精簡原則對所有用戶的所述訪問URL地址進行精簡;所述精簡原則包括業務性精簡和相似性精簡;所述業務性精簡為根據業務所關心的方向,將完全無關的所述訪問URL地址進行精簡,所述相似性精簡將歸屬于同一所述訪問URL地址進行合并,形成唯一的所述訪問URL地址;
步驟S32:將精簡后的所述訪問URL地址進行編號,所述訪問URL地址具有唯一對應的URL編號,并將所述URL編號對應成URL數據字段;
步驟S33:將每個所述用戶的所述訪問網址頻率按一預定的上網時間段內訪問每個所述訪問URL地址的次數進行累計;
步驟S34:形成在所述預定的時間中所有用戶訪問每個所述訪問URL地址的訪問記錄表;
步驟S4:將所述訪問記錄表的數據信息按用戶維度進行合并,形成預定的上網時間段內的用戶數據表。
2.根據權利要求1所述的基于用戶上網行為用于人工智能算法的數據預處理方法,其特征在于,所述步驟S3還包括步驟S35:將訪問記錄表中的數據采用非線性歸一化的算法進行歸一化處理。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海數鳴人工智能科技有限公司,未經上海數鳴人工智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010705027.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種硅片切割廢料頂吹精煉的方法
- 下一篇:超聲波流量開關





