[發(fā)明專利]基于互聯(lián)網用戶公開信息的用戶多維度分析與監(jiān)測方法無效
| 申請?zhí)枺?/td> | 201310241460.9 | 申請日: | 2013-06-18 |
| 公開(公告)號: | CN103309990A | 公開(公告)日: | 2013-09-18 |
| 發(fā)明(設計)人: | 潘爭 | 申請(專利權)人: | 上海晶樵網絡信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06Q30/02 |
| 代理公司: | 上海智信專利代理有限公司 31002 | 代理人: | 吳林松 |
| 地址: | 202162 上海市崇明縣陳家鎮(zhèn)瀛*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 互聯(lián)網 用戶 公開 信息 多維 分析 監(jiān)測 方法 | ||
技術領域
本發(fā)明屬于計算機、互聯(lián)網、信息技術領域,涉及信息的搜集與分析技術,尤其是互聯(lián)網大數(shù)據(jù)領域,涉及非公開數(shù)據(jù)演算推測法。
背景技術
隨著科技與互聯(lián)網的進步,電子商務成為互聯(lián)網行業(yè)的重要的一環(huán),數(shù)據(jù)已經成為改變一家企業(yè)所必不可少的利器。尤其是隨著大數(shù)據(jù)時代的到來,一些曾經非常棘手的問題都能夠迎刃而解。用戶的消費習慣、興趣愛好、關系網絡以及整個互聯(lián)網的趨勢、潮流都將成為互聯(lián)網從業(yè)者關注的熱點,而這一切的獲取和分析都離不開大數(shù)據(jù)。一方面,社會化媒體基礎上的大數(shù)據(jù)挖掘和分析將會衍生很多應用;另一方面,基于數(shù)據(jù)分析的營銷咨詢服務也正在興起。
數(shù)據(jù)背后潛藏著巨大的商業(yè)機會。以前只有Google、微軟這樣的公司能做大數(shù)據(jù)的深挖,現(xiàn)在已經有越來越多的創(chuàng)業(yè)公司進入,不同公司在不同維度的數(shù)據(jù)分析和服務正創(chuàng)造出新的商業(yè)模式。
微博發(fā)言使得人們的行為和情緒的細節(jié)化測量成為可能。挖掘用戶的行為習慣和喜好,凌亂紛繁的數(shù)據(jù)背后找到更符合用戶興趣和習慣的產品和服務,并對產品和服務進行針對性地調整和優(yōu)化,這就是大數(shù)據(jù)的價值。大數(shù)據(jù)也日益顯現(xiàn)出對各個行業(yè)的推進力。
大數(shù)據(jù)的核心即是通過收集、整理生活中方方面面的數(shù)據(jù),并對其進行分析挖掘,進而從中獲得有價值信息,最終衍化出一種新的商業(yè)模式。這里面,核心的技術就是數(shù)據(jù)挖掘和統(tǒng)計分析。
目前現(xiàn)有企業(yè)雖然可以通過ERP系統(tǒng)及時的監(jiān)控跟蹤分析自己的產品,但是對于競爭對手的情況,市場的動向以及消費者口碑等信息難以從量的角度把握。
經對現(xiàn)有技術的文獻檢索發(fā)現(xiàn),有關用戶多維度分析與監(jiān)測方法主要有以下幾種:
1.LDA(Latent?Dirichlet?Allocation)算法。這是一個概率模型,用于從文本中挖掘出用戶所談論的主題,本發(fā)明將其應用在中文系統(tǒng),并實現(xiàn)了分布式環(huán)境下的海量數(shù)據(jù)的快速挖掘(來源:Blei,D.M.,Ng,A.Y.,Jordan,M.I.:Latent?Dirichlet?Allocation.Journal?of?Machine?Learning?Research3(2003)993–1022)
2.?Bayes算法(樸素貝葉斯算法)來進行年齡預測。這是一個非常常用的文本分類算法,也適合在分布式環(huán)境里對海量數(shù)據(jù)進行分類,效果不錯。(參考文獻:1.Zhang,Harry.The?Optimality?of?Naive?Bayes.FLAIRS2004conference.
方法1是一個集合概率模型,主要用于處理離散的數(shù)據(jù)集合,目前主要用在數(shù)據(jù)挖掘(dm)中的text?mining和自然語言處理中,主要是用來降低維度的。效果不錯但是會有數(shù)據(jù)缺失的問題。
方法2是ML中的一個非常基礎和簡單的算法,常常用它來做分類,適用于text?classification。現(xiàn)在的研究中已經很少有人用它來實驗了(除非是做base?line),但確實是個很好的入門的算法,不過對于年齡等數(shù)據(jù)推算補足還是太過于粗略。
發(fā)明內容
本發(fā)明的目的是針對現(xiàn)有技術的不足,提供一種基于互聯(lián)網海量用戶公開信息的用戶多維度分析與監(jiān)測方法。
為達到上述目的,本發(fā)明的解決方案是:
一種基于互聯(lián)網用戶公開信息的用戶多維度分析與監(jiān)測方法,包括:
(1)搜集數(shù)據(jù)進行預處理;
(2)對預處理之后的數(shù)據(jù)進行分析、挖掘;
(3)對數(shù)據(jù)分析、挖掘數(shù)據(jù)的結果進行展現(xiàn)、可視化,對數(shù)據(jù)結果集加以利用。
進一步,步驟(1)中所述數(shù)據(jù)的搜集,主要采用ETL進行預處理;
優(yōu)選的,搜集主要的互聯(lián)網用戶數(shù)據(jù),主要是微博、qq、微信數(shù)據(jù),包括用戶的個人基本信息和網絡發(fā)言數(shù)據(jù);以及主要的互聯(lián)網商業(yè)數(shù)據(jù),包括電商,行業(yè)論壇,門戶網站的相關頻道,主要是商品,商品銷量,以及用戶評價等;
優(yōu)選的,通過自建計算集群來進行上述搜集,從互聯(lián)網上抓取網頁→建立索引數(shù)據(jù)庫→在索引數(shù)據(jù)庫中搜索排序;
優(yōu)選的,根據(jù)公開的信息去預測、補全未公開的信息,如年齡預測,性別預測等。
根據(jù)公開的信息去預測、補全年齡的年齡演算推測法:
把年齡分為N個年齡群組A{a1,a2,a3,a4..an}表示A用戶的好友集合
(1)然后把關系網數(shù)據(jù)降維,減少數(shù)據(jù)量;
(2)age=MAX(count(an)).age;A的年齡=好友中年齡出現(xiàn)最多的
(3)預測正確年齡段人數(shù)N;
(4)實際有年齡段的人數(shù)M;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海晶樵網絡信息技術有限公司,未經上海晶樵網絡信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310241460.9/2.html,轉載請聲明來源鉆瓜專利網。
- 基于網絡電視的互聯(lián)網業(yè)務處理方法和系統(tǒng)
- 互聯(lián)網業(yè)務接入網關的實現(xiàn)方法和系統(tǒng)
- 一種互聯(lián)網電視終端安全訪問互聯(lián)網的方法
- 一種互聯(lián)網應用交互方法、裝置及系統(tǒng)
- 一種使用互聯(lián)網移動攝像終端進行異地圖像拍攝的系統(tǒng)
- 一種網絡電視終端安全訪問互聯(lián)網的方法
- 利用區(qū)塊鏈保護用于互聯(lián)網資源分配的事務
- 互聯(lián)網廣告裝置及方法
- 中央管理服務器的互聯(lián)網連接方法及系統(tǒng)
- 互聯(lián)網節(jié)點中信任傳播方法、系統(tǒng)及相關產品





