[發明專利]一種互聯網真偽消費者判別方法、系統和裝置在審
| 申請號: | 202110171747.3 | 申請日: | 2021-02-08 |
| 公開(公告)號: | CN112905662A | 公開(公告)日: | 2021-06-04 |
| 發明(設計)人: | 楊駿;郭奕楷 | 申請(專利權)人: | 上海宏原信息科技有限公司 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458;G06Q50/00 |
| 代理公司: | 上海容慧專利代理事務所(普通合伙) 31287 | 代理人: | 于曉菁 |
| 地址: | 200233 上海市徐匯區欽*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 互聯網 真偽 消費者 判別 方法 系統 裝置 | ||
本發明提供的一種互聯網真偽消費者判別方法、系統和裝置,針對社交類和垂直類平臺設計多模式的異常賬號識別方法,將用戶的發言內容與行為相結合,其通過隨機選取樣本用戶,提取用戶的行為數據和發布內容數據;建立特征異常判定的動態閾值,以確定用戶異常行為與正常行為的量化差異;根據動態閾值建立評估機制動態評估用戶的狀態,識別出異常用戶賬號。
技術領域
本發明涉及流量分析技術領域,具體涉及一種互聯網真偽消費者判別方法、系統和裝置。
背景技術
目前,對于甄別虛假消費者(網絡異常賬號)的方法主要有3種:基于內容特征分析、基于用戶行為特征分析以及基于用戶關系特征的分析方法。
內容特征分析是指通過自然語言處理相關技術,如文本分析、情感分析去識別文本間的相似性和情感傾向,從而達到識別異常賬號的目的。這一技術主要在互聯網時代早期廣泛應用,比如通過檢測重復內容來識別垃圾郵件。但是隨著互聯網的進步,異常賬號越來越會隱藏自己,甚至可以模仿真實消費者發言,單純的從文本內容已經無法有效的進行異常賬號識別了。隨著網絡趨于多元化,消費者的發言形式也更復雜,會充斥著更多無意義的內容(如重復跟帖)。所以僅憑文本內容進行判定,會把很多真實用戶識別為異常賬號。
基于用戶行為特征的方法依賴于機器學習模型,如邏輯回歸、樸素貝葉斯、隨機森林等等,可以避免因為異常賬號發言內容趨近于真人而無法識別的問題,而且經過數據驗證,能夠取得比較高的準確率和召回率。但是這種基于用戶特征的方法應用隨著社交平臺上的數據量越來越大(十億、百億級),在商業應用中幾乎不可能被實現。原因在于,1)模型需要人工判斷和標注哪些是異常賬號作為訓練數據,如果要在1億條用戶數據中找出哪些是異常賬號,需要人工標注大量數據,成本高。2)即使有了標注好的異常賬號數據,預測需要花費大量的計算資源和時間。3)此類模型的準確率通常在80%左右,離商業應用還有一段差距。
同理,基于用戶關系識別的方法依賴于圖論、概率圖等模型,也會在應用中會遇到和機器學習模型相似的問題。除此以外,隨著互聯網用戶更加注重個人隱私的保護,基于用戶關系識別的方法所必要的用戶社交網絡數據變得非常難獲取,進一步增加了該方法實施的難度。
發明內容
本發明的目的是提供一種互聯網真偽消費者判別方法、系統和裝置,用以識別互聯網平臺中真假消費者。
為了達到上述目的,本發明一方面提供一種互聯網真偽消費者判別方法包括以下步驟:
數據獲取,隨機選取樣本用戶,提取用戶的行為數據和發布內容數據;
確定閾值,建立特征異常判定的動態閾值,所述動態閾值用以表示用戶異常行為與正常行為的量化差異;
賬號識別,根據動態閾值建立評估機制動態評估用戶的狀態,識別出異常用戶賬號。
進一步的,在數據獲取過程中,提取的用戶的行為數據和發布內容數據包括:
用戶信息,包括用戶名、用戶賬號、關注數、粉絲數;
主動發布內容,包括文字、發布時間;
轉發、評論內容,包括被轉發或評論的內容、轉發或評論時寫的內容、轉發或評論的時間。
進一步的,所述閾值確定過程中,包括:
計算用戶賬號存在異常行為次數的分位點,上下四分位點分別記為Q3和 Q1;
計算上異常值邊界和下異常值邊界,上異常值邊界=Q3+1.5(Q3-Q1),下異常值邊界=Q1-1.5(Q3-Q1);
將上異常值邊界作為閾值,大于上異常值邊界的為異常值。
進一步的,本方法還包括:
計算用戶賬號的活躍天數和不活躍天數;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海宏原信息科技有限公司,未經上海宏原信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110171747.3/2.html,轉載請聲明來源鉆瓜專利網。





