[發明專利]大數據環境下新型多模型智能網警檢測方法無效
| 申請號: | 201310351717.6 | 申請日: | 2013-08-14 |
| 公開(公告)號: | CN103593385A | 公開(公告)日: | 2014-02-19 |
| 發明(設計)人: | 不公告發明人 | 申請(專利權)人: | 北京覓緣信息科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100029 北京市朝陽*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據 環境 新型 模型 智能 檢測 方法 | ||
技術領域
本方法主要用于互聯網婚戀領域,具體涉及到在海量(大)數據環境下,如何采用機器學習技術來設計自適應模型從而智能地預測出可疑的用戶。
背景技術
隨著互聯網技術的普及,婚戀交友這個傳統嚴肅的活動也開始互聯網化,越來越多的人選擇通過專業的互聯網婚戀網站來尋找另一半。由于互聯網的低門檻和虛擬性,其提供優質婚戀服務的同時,也很容易成為各類騙子活躍的舞臺。
現有的解決辦法,主要是通過以下四種方式來抓騙子:用戶投訴,客服人員人工審核,通過建立模型來預測可疑用戶,以及前三種方式的結合。第一種方法屬于被動投訴,其效率很低。第二種方法過于依賴人工,這對于巨大的互聯網用戶群來說,顯得效率低下。第三種方法主要是采用機器學習技術進行建模,從而使得系統能主動地預測可疑的用戶,然后通過客服人員進行審核,這可以極大地提高客服人員的效率。
而現有的依賴模型方法主要存在以下幾個問題:1)模型比較單一,錯誤率較高,誤判,漏判嚴重;2)智能化程度和實時性不高;3)模型的適用范圍狹窄,沒法自動應對變化,也沒法應用推廣到其它類似的婚戀交友環境和海量數據環境(比如8000萬級別的用戶量)。
發明內容
為了克服上述現有的解決辦法缺點,本在大數據環境下新型多模型智能網警檢測方法的目的在于提供一種能使用在大數據環境下,智能程度高,使用范圍廣并且準確率高的網警系統。
為了達到上述目的,本在大數據環境下新型多模型智能網警檢測方法的技術方案為:
前臺模塊,海量日志服務器,海量日志處理模塊,Hadoop分布式集群,后臺多重算法模塊,客服展示模塊,和數據統計和反饋模塊。其中海量日志服務器主要用于記錄用戶的基本屬性信息(比如年齡,教育程度等)和基本行為信息(比如發信,收信,點擊等)。海量日志處理模塊主要用于從原始的日志記錄中提取出網警機器學習模型所需要的各種信息。Hadoop分布式集群主要用戶支持對海量數據(8000萬用戶級別,每個用戶又包含近百個維度)的提取,查詢,處理和計算。后臺多重算法模塊主要包括模型的建立,更新,選擇和預測。后臺多重算法模塊又分為注冊IP偵測模型,信件內容處理模型,主系統模型和其它輔助模型。
IP偵測模型主要是通過訓練實時模型來監測使用高度可疑的注冊IP段的用戶。以前的IP偵測系統只能偵測四段完整的IP,而如果可疑用戶使用VPN代理技術或虛擬IP技術,就很容易造成漏判。而本模型主要是根據歷史上騙子的注冊IP段(分為2段IP,3段IP和4段IP)的統計信息來對新用戶的注冊IP段進行評分,然后再利用用戶注冊時必須填寫的五個基本信息(身高,年齡,收入,性別和教育水平),運用機器學習分類算法建立模型,從而對可疑用戶進行預測。IP偵測模型提供了網警系統的第一道關卡,可以在用戶還沒有任何行為之前,找出高度可疑的用戶,并對這些用戶進行監測,從而可以降低可疑用戶造成的危害。
信件內容偵測模型主要是通過對信件文本內容進行處理(計算信件相似度,包含敏感詞比例,非字符數目所占總字符比例,發信給同城用戶的比例,發信給異地用戶的比例等),然后根據用戶的基本屬性和基本行為信息(是否信件群發),運用機器學習分類算法建立模型,從而對可疑用戶進行預測。信件內容偵測模型提供了智能網警的第二道關卡,可以有效的偵測可疑用戶注冊初期產生的異常發信行為,從而及時地把他們加為黑名單用戶,這樣可以及時降低他們的危害。
主系統模型主要是根據用戶大量的基本屬性和發信行為信息,應用機器學習分類技術建立模型。以前的網警模型大部分只是建立一個單一模型來預測用戶的可疑概率,這樣會造成大量的誤判和漏判。為了克服這個問題,本新型多模型智能網警檢測方法根據用戶注冊時間的長短訓練學習多個模型,從而進行混合推薦。本系統根據用戶注冊時間的長短共訓練了11個模型:分布包括注冊6分鐘模型,注冊20分鐘模型,注冊40分鐘模型,注冊1小時模型,注冊2小時模型,注冊4小時模型,注冊8小時模型,注冊16小時模型,注冊32小時模型,注冊64小時模型,注冊128小時模型。這11個子模型構建了11道關卡,如果用戶在任意一個模型內被檢測為異常,則認為該用戶是可疑用戶。該模型有效地解決了單一模型沒有充分考慮用戶不同時間段實時的行為而造成準確率低下的情況。
其它輔助系統主要包括照片子系統和注冊郵箱子系統。照片子系統主要用戶正常不同的用戶使用相同的照片作為頭像的情況。而注冊郵箱子系統主要用戶偵測使用高度相似注冊郵箱的用戶。這些子系統配合之前描述的三個模型,可疑進一步提高每日的可疑用戶偵測人數,進一步減少騙子可能造成的危害。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京覓緣信息科技有限公司,未經北京覓緣信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310351717.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種交友搜索解決方案
- 下一篇:一種減少MCU中斷占用I2C總線時間的方法
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





