[發明專利]一種互聯網用戶行為采集及分析檢測的大數據方法在審
| 申請號: | 201611101048.7 | 申請日: | 2016-12-02 |
| 公開(公告)號: | CN106779827A | 公開(公告)日: | 2017-05-31 |
| 發明(設計)人: | 潘爭 | 申請(專利權)人: | 上海晶樵網絡信息技術有限公司 |
| 主分類號: | G06Q30/02 | 分類號: | G06Q30/02;G06Q50/00;G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 202162 上海市崇明縣陳家鎮瀛*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 互聯網 用戶 行為 采集 分析 檢測 數據 方法 | ||
1.一種互聯網用戶行為采集及分析檢測的大數據方法,其特征在于;具體步驟包括:
(1)數據的搜集和預處理;
(2)數據分析及挖掘;
(3)對數據分析的結果加以利用。
2.根據權利要求1所述的一種互聯網用戶行為采集及分析檢測的大數據方法,其特征在于:所述步驟(1)中所述數據的搜集,主要采用ETL進行預處理;搜集的主要是互聯網用戶的數據,主要包含有微博、qq、微信數據,包括用戶的個人基本信息和網絡發言數據;以及主要的互聯網商業數據,包括電商,行業論壇,門戶網站的相關頻道,主要是商品,商品銷量,以及用戶評價;通過自建計算集群來進行上述搜集,從互聯網上抓取網頁→建立索引數據庫→在索引數據庫中搜索排序;根據公開的信息去預測、補全未公開的信息,如年齡預測,性別預測。
3.根據權利要求2所述的一種互聯網用戶行為采集及分析檢測的大數據方法,其特征在于;根據公開的信息去預測、補全年齡的年齡演算具體推測法:把年齡分為N個年齡群組A{a1,a2,a3,a4..an}
(1)然后把關系網數據降維,減少數據量;
(2)age=MAX(count(an)).age;
(3)預測正確年齡段人數N;
(4)實際有年齡段的人數M;
(5)準確率=預測正確年齡段人數/實際有年齡段的人數=N/M。
4.根據權利要求1所述的一種互聯網用戶行為采集及分析檢測的大數據方法,其特征在于;所述步驟(2)中以數據的分析,挖掘為主;所述數據分析:企業用戶可以按時間緯度自己的產品以及指定競爭對手在各個網絡渠道的銷售情況,以及這些產品的評論口碑,給企業用戶多維查詢;數據挖掘主要包括:(1)基于CRM庫的定向營銷:預先建立微博、qq、微信等實體用戶數據庫,并且為這些用戶的貼上喜好標簽,企業方可以對這些用戶發送廣告信息;(2)交叉銷售;購買了某品牌產品的用戶,也同時購買了其他產品;建議增加綁定,提高銷量;(3)促銷活動預測和結果分析;對促銷前,對目標客戶群鎖定,計算促銷方案,促銷之后,評價;促銷前,一般促銷方案分為:滿減,滿贈,積分等;
比如,滿300元送精美餐具一套,預估日均業績100萬,送多少比合適;預測的參加率為30%,(100萬*30%)/300元=1000筆(合適);促銷后,評測促銷結果:a.促銷活動的效益增加率;b.基于微博,評論數據,了解有多少人還記得這次促銷活動,看法和態度如何,對品牌的忠誠度的上升或下跌;(4)時間序列預測;基于全網的用戶發言傾向,產品數據,對企業方的產品銷量,市場飽和度,市場走勢發展做出預測;比如檢測到某個時間段,筆記本電腦熱賣;而且季節也臨近夏季,那么筆記本用戶對電腦散熱的需求也隨之而來。
5.根據權利要求1所述的一種互聯網用戶行為采集及分析檢測的大數據方法,其特征在于:所述步驟(3)中第三階段以數據的展現、可視化、數據結果集的操作利用為主;除了常規的表示數據走勢的曲線圖,數據份額的餅狀圖以外,該系統可以為企業方提供向特定用戶群發聯絡信的功能。
6.根據權利要求1所述的一種互聯網用戶行為采集及分析檢測的大數據方法,其特征在于;針對互聯網上海量用戶的發言,采用的技術是中文的文本挖掘;中文的文本分析首先用到的是中文分詞;本發明采用的是IKAnalyzer中文分詞系統,這是一個開源的分詞系統,在這個工具的基礎上,創建了多達250個分類詞庫;在經過“分詞”這一基本的文字處理后,為了從海量的用戶發言中挖掘出用戶的興趣愛好,從而給每個用戶打上標簽,采用的是LDA算法;用于從文本中挖掘出用戶所談論的主題,本發明將其應用在中文系統,并實現了分布式環境下的海量數據的快速挖掘;采用 Bayes算法,即樸素貝葉斯算法來進行年齡預測。
7.根據權利要求1所述的一種互聯網用戶行為采集及分析檢測的大數據方法,其特征在于:在互聯網的海量數據中,用戶間的關系組成了一張龐大的關系網,從中找出最核心的用戶,即整個關系網中最有影響力的用戶;采用PageRank算法,將其應用在人與人之間的網絡關系上,用來判斷一個人的影響力,通過分布式環境,能夠計算幾億人之間的關系,得到幾億人的影響力。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海晶樵網絡信息技術有限公司,未經上海晶樵網絡信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611101048.7/1.html,轉載請聲明來源鉆瓜專利網。





