[發明專利]用戶昵稱真實性評估方法、存儲介質、電子設備及系統有效
| 申請號: | 201710935293.6 | 申請日: | 2017-10-10 |
| 公開(公告)號: | CN107861941B | 公開(公告)日: | 2021-04-23 |
| 發明(設計)人: | 王璐;陳少杰;張文明 | 申請(專利權)人: | 武漢斗魚網絡科技有限公司 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216 |
| 代理公司: | 武漢智權專利代理事務所(特殊普通合伙) 42225 | 代理人: | 張凱 |
| 地址: | 430000 湖北省武漢市東湖開*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用戶 昵稱 真實性 評估 方法 存儲 介質 電子設備 系統 | ||
本發明公開了一種用戶昵稱真實性評估方法、存儲介質、電子設備及系統,涉及大數據風控領域,該方法包括S1:對用戶昵稱進行拆分,形成多個元素,且拆分形成的多個元素構成一個序列;S2:建立用戶昵稱的昵稱困惑度計算公式;S3:進行用戶昵稱的昵稱困惑度計算,所述昵稱困惑度值越小,其對應的用戶昵稱真實度越高。本發明能夠有效而快速地對惡意用戶的用戶昵稱進行判斷和識別。
技術領域
本發明涉及大數據風控領域,具體涉及一種用戶昵稱真實性評估方法、存儲介質、電子設備及系統。
背景技術
在直播行業,某些非法人員出于利益的考慮,會注冊多個賬戶,俗稱惡意賬號,從而進行刷關注數、觀眾數等惡意行為來增加某個主播的人氣,一般來講,非法人員為了達到快速注冊賬戶的目的,會采用較簡單和隨意的賬戶昵稱,如my71ym4g4等,此類昵稱通常由機器自動生成,且沒有任何含義。正常用戶的昵稱雖然具有一定的隨意性,但大多都還是正常的語言表達文本形式,且容易記憶,根據這一點,便可通過一定的方法來評估用戶的昵稱是否真實合理,從而判斷相對應的用戶賬號是否是惡意賬號。
目前,對于惡意賬號昵稱的識別是基于一定的規則的,即從收集的惡意賬號中發現并總結其昵稱的規律,形成固定規則,從而比對新增的可疑賬號昵稱,判斷其是否是惡意賬號,但這種識別方法需要大量的人力工作去總結惡意賬號昵稱的規律,費時費力,識別效率和準確率低。
發明內容
針對現有技術中存在的缺陷,本發明的目的在于提供一種用戶昵稱真實性評估方法,能夠有效而快速地對惡意用戶的用戶昵稱進行判斷和識別。
為達到以上目的,本發明采取的技術方案是,包括:
S1:對用戶昵稱進行拆分,形成多個元素,且拆分形成的多個元素構成一個序列;
S2:建立用戶昵稱的昵稱困惑度計算公式
其中,nick-perplexity為昵稱困惑度,xi是序列中的第i個元素,其中i為正整數,n為序列的子序列所包含的元素個數,取值為2或3,m為整個序列中元素的個數,其中m為大于1的正整數,N是序列中元素個數為n的子序列的個數,N=m-n+1,k是權重系數,為取值在0和1之間的常數;
p(xi|xi-n+1,...,xi-1)是元素xi出現的條件概率,其計算公式為
其中,N{xi-n+1,...,xi-1}是序列{xi-n+1,...,xi-1}在整個用戶昵稱語料庫中出現的次數,N{xi-n+1,...,xi-1,xi}是序列{xi-n+1,...,xi-1,xi}在整個用戶昵稱語料庫中出現的次數;
S3:進行用戶昵稱的昵稱困惑度計算,所述昵稱困惑度值越小,其對應的用戶昵稱真實度越高。
在上述技術方案的基礎上,所述用戶昵稱為文本信息,所述用戶昵稱包含漢字、英文、數字或符號中的至少一類。
在上述技術方案的基礎上,
對于用戶昵稱的元素劃分按照文本元素劃分原則;
所述文本元素劃分原則為:單個漢字為1個元素,單個詞語為1個元素,單個英文單詞為1個元素,單個英文字母為1個元素,單個數字為1個元素,連續數字為1個元素,單個符號為1個元素。
在上述技術方案的基礎上,基于文本元素劃分原則,對用戶昵稱進行元素劃分,并按照先后順序,將劃分得到的元素放入序列中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢斗魚網絡科技有限公司,未經武漢斗魚網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710935293.6/2.html,轉載請聲明來源鉆瓜專利網。





