[發明專利]一種互聯網真偽消費者判別方法、系統和裝置在審
| 申請號: | 202110171747.3 | 申請日: | 2021-02-08 |
| 公開(公告)號: | CN112905662A | 公開(公告)日: | 2021-06-04 |
| 發明(設計)人: | 楊駿;郭奕楷 | 申請(專利權)人: | 上海宏原信息科技有限公司 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458;G06Q50/00 |
| 代理公司: | 上海容慧專利代理事務所(普通合伙) 31287 | 代理人: | 于曉菁 |
| 地址: | 200233 上海市徐匯區欽*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 互聯網 真偽 消費者 判別 方法 系統 裝置 | ||
1.一種互聯網真偽消費者判別方法,其特征在于,包括以下步驟:
數據獲取,隨機選取樣本用戶,提取用戶的行為數據和發布內容數據;
確定閾值,建立特征異常判定的動態閾值,所述動態閾值用以表示用戶異常行為與正常行為的量化差異;
賬號識別,根據動態閾值建立評估機制動態評估用戶的狀態,識別出異常用戶賬號。
2.如權利要求1所述的一種互聯網真偽消費者判別方法,其特征在于,在數據獲取過程中,提取的用戶的行為數據和發布內容數據包括:
用戶信息,包括用戶名、用戶賬號、關注數、粉絲數;
主動發布內容,包括文字、發布時間;
轉發、評論內容,包括被轉發或評論的內容、轉發或評論時寫的內容、轉發或評論的時間。
3.如權利要求1所述的一種互聯網真偽消費者判別方法,其特征在于,所述閾值確定過程中,包括:
計算用戶賬號存在異常行為次數的分位點,上下四分位點分別記為Q3和Q1;
計算上異常值邊界和下異常值邊界,上異常值邊界=Q3+1.5(Q3-Q1),下異常值邊界=Q1-1.5(Q3-Q1);
將上異常值邊界作為閾值,大于上異常值邊界的為異常值。
4.如權利要求3所述的一種互聯網真偽消費者判別方法,其特征在于,還包括:
計算用戶賬號的活躍天數和不活躍天數;
根據用戶賬號的活躍天數和不活躍天數作為邊界繪制箱型圖,根據箱型圖設定閾值。
5.如權利要求4所述的一種互聯網真偽消費者判別方法,其特征在于,還包括,根據下述步驟判斷用戶賬號異常特征:
判斷用戶賬號的關注數或粉絲數大于閾值1且關注數大于閾值2;
半年內異常行為次數大于閾值3,所述異常行為包括:
回復單條內容次數大于閾值4;
單條內容下回復了重復次數大于閾值4且長度大于閾值5的內容;
轉發同一條內容次數大于閾值4;
發布重復次數大于閾值6且長度閾值5的內容;
其中閾值1=9.6,閾值2=110,閾值3=4,閾值4=4,閾值5=10,閾值6=7。
6.如權利要求5所述的一種互聯網真偽消費者判別方法,其特征在于,異常用戶賬號判斷還包括:
計算用戶賬號用戶名與已識別的異常賬號賬號用戶名的編輯距離,所述編輯距離為EditDistance(s1,s2),S1為用戶名字符串,S2為異常賬號賬號用戶名字符串;
當所述編輯距離大于2,判斷用戶賬號為異常賬號。
7.一種互聯網真偽消費者判別系統,其特征在于,包括:
數據獲取單元,用以隨機選取樣本用戶,提取用戶的行為數據和發布內容數據;
確定閾值單元,用以建立特征異常判定的動態閾值,所述動態閾值用以表示用戶異常行為與正常行為的量化差異;
賬號識別單元,用以根據動態閾值建立評估機制動態評估用戶的狀態,識別出異常用戶賬號。
8.一種計算機設備,其特征在于,包括存儲器和處理器,所述存儲器存儲有計算機程序,所述計算機程序被所述處理器執行時,使得所述處理器執行如權利要求1至6中任一項所述方法的步驟。
9.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質存儲有計算機程序,所述計算機程序包括程序指令,所述程序指令當被處理器執行時使所述處理器執行如權利要求1至6中任一項所述方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海宏原信息科技有限公司,未經上海宏原信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110171747.3/1.html,轉載請聲明來源鉆瓜專利網。





