[發明專利]用戶群體的分類方法、裝置、存儲介質及計算機設備有效
| 申請號: | 202111412279.0 | 申請日: | 2021-11-25 |
| 公開(公告)號: | CN113836370B | 公開(公告)日: | 2022-03-01 |
| 發明(設計)人: | 陶景龍;王啟凡;魏國富;殷錢安;余賢喆;周曉勇;梁淑云;劉勝;馬影 | 申請(專利權)人: | 上海觀安信息技術股份有限公司 |
| 主分類號: | G06F16/9035 | 分類號: | G06F16/9035;G06F16/906;G06N20/00 |
| 代理公司: | 北京中強智尚知識產權代理有限公司 11448 | 代理人: | 黃耀威 |
| 地址: | 200000 上海市浦東新*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用戶 群體 分類 方法 裝置 存儲 介質 計算機 設備 | ||
1.一種用戶群體的分類方法,其特征在于,所述方法包括:
獲取用戶群體的行為數據,并對所述用戶群體的行為數據進行預處理,得到以每個用戶的用戶名為主體對象的行為序列數據集,其中,每個用戶名對應一個行為序列,每個行為序列包含至少一個行為指令;
利用關聯分析算法,對所述行為序列數據集中的頻繁行為指令組合進行提取和頻次統計,得到頻繁指令組合特征表,其中,所述頻繁行為指令組合為所述行為序列數據集中共同頻繁出現的行為指令的組合;
通過序列對比算法,計算所述行為序列數據集中的各個行為序列之間的序列匹配分值和序列間相似度分值,得到序列相似性特征表;
對所述行為序列數據集中的行為指令進行頻次統計,得到行為指令頻次特征表;
采用半監督分類算法,對所述頻繁指令組合特征表、序列相似性特征表和行為指令頻次特征表進行分類分析,得到具有不同類別的用戶群體。
2.根據權利要求1所述的方法,其特征在于,所述獲取用戶群體的行為數據,并對所述用戶群體的行為數據進行預處理,得到以每個用戶的用戶名為主體對象的行為序列數據集,包括:
獲取用戶群體的行為數據,其中,所述用戶群體的行為數據包括每個用戶的用戶名、每個用戶的至少一個行為指令以及每個行為指令的操作時間;
利用預設的字符字典,對每個用戶的行為指令進行編碼處理;
根據所述行為指令的操作時間,對編碼后的行為指令進行排序,得到每個用戶的行為序列;
根據所述每個用戶的用戶名和所述每個用戶的行為序列,生成以每個用戶的用戶名為主體對象的行為序列數據集。
3.根據權利要求1所述的方法,其特征在于,所述利用關聯分析算法,對所述行為序列數據集中的頻繁行為指令組合進行提取和頻次統計,得到頻繁指令組合特征表,包括:
利用關聯分析算法,對所述行為序列數據集中的頻繁行為指令組合進行提取,得到包含有多個頻繁行為指令組合的頻繁指令組合列表;
對所述頻繁指令組合列表中的每個頻繁行為指令組合在所述行為序列數據集中出現的頻次進行統計,得到以用戶名和頻繁行為指令組合為字段名的頻繁指令組合特征表。
4.根據權利要求1所述的方法,其特征在于,所述通過序列對比算法,計算所述行為序列數據集中的各個行為序列之間的序列匹配分值和序列間相似度分值,得到序列相似性特征表,包括:
通過全局序列對比算法,計算所述行為序列數據集中的各個行為序列之間的全局序列匹配分值數組和全局序列間相似度分值數組;
對所述全局序列匹配分值數組和全局序列間相似度分值數組分別進行最大值、最小值、平均值、標準差和方差計算,得到全局序列相似性特征表;
通過局部序列對比算法,計算所述行為序列數據集中的各個行為序列之間的局部序列匹配分值數組和局部序列間相似度分值數組;
對所述局部序列匹配分值數組和局部序列間相似度分值數組分別進行最大值、最小值、平均值、標準差和方差計算,得到局部序列相似性特征表;
以每個用戶的用戶名作為關聯字段,對所述全局序列相似性特征表和所述局部序列相似性特征表進行關聯合并,得到序列相似性特征表。
5.根據權利要求1所述的方法,其特征在于,所述對行為序列數據集中的行為指令進行頻次統計,得到行為指令頻次特征表,包括:
對所述行為序列數據集中的所有行為指令進行合并和去重處理,得到包含有所有行為指令的行為指令列表;
對所述行為指令列表中的每個行為指令在所述行為序列數據集中出現的頻次進行統計,得到以用戶名和行為指令為字段名的行為指令頻次特征表。
6.根據權利要求1所述的方法,其特征在于,所述采用半監督分類算法,對所述頻繁指令組合特征表、序列相似性特征表和行為指令頻次特征表進行分類分析,得到具有不同類別的用戶群體,包括:
以每個用戶的用戶名作為關聯字段,對所述頻繁指令組合特征表、序列相似性特征表和行為指令頻次特征表進行關聯合并,得到特征集成數據表;
通過半監督支持向量機算法,對所述特征集成數據表進行分類分析,得到具有不同類別的用戶群體。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海觀安信息技術股份有限公司,未經上海觀安信息技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111412279.0/1.html,轉載請聲明來源鉆瓜專利網。





