[發(fā)明專利]一種公司用戶畫像的生成方法在審
| 申請?zhí)枺?/td> | 201811622697.0 | 申請日: | 2018-12-28 |
| 公開(公告)號: | CN109710697A | 公開(公告)日: | 2019-05-03 |
| 發(fā)明(設計)人: | 孫錦彬;吳承霖;周津 | 申請(專利權)人: | 廈門笨鳥電子商務有限公司 |
| 主分類號: | G06F16/27 | 分類號: | G06F16/27;G06F16/215;G06F16/2458;G06F16/23 |
| 代理公司: | 廈門市新華專利商標代理有限公司 35203 | 代理人: | 羅恒蘭 |
| 地址: | 361000 福建省廈門市思明區(qū)前埔*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 畫像 離線 公司用戶 數(shù)據(jù)同步 更新 用戶實時信息 串口 服務器壓力 定時更新 實時信息 數(shù)據(jù)干擾 算法預測 同步數(shù)據(jù) 統(tǒng)計數(shù)據(jù) 用戶行為 時效性 實時性 數(shù)據(jù)源 同步的 滑動 發(fā)送 預測 統(tǒng)計 保證 | ||
本發(fā)明公開了一種公司用戶畫像的生成方法,其步驟包括離線畫像和實時畫像,離線畫像通過spark搭建畫像系統(tǒng),并將數(shù)據(jù)同步到hdfs,進行定時更新,通過同步數(shù)據(jù)、統(tǒng)計數(shù)據(jù)和gbdt算法預測特征,生成離線畫像;實時畫像通過kafka將用戶的實時信息發(fā)送至spark streaming,根據(jù)用戶行為更新畫像,并將每個窗口的數(shù)據(jù)進行統(tǒng)計并預測,更新到用戶的畫像列表中。本發(fā)明采用同步的形式,定時將數(shù)據(jù)源的數(shù)據(jù)同步到hdfs中,與spark更好地結(jié)合,提高效率并減少服務器壓力,確保畫像具有時效性;并進行多時間串口的滑動,通過用戶實時信息更新畫像,保證畫像的實時性,使特征以及畫像不會受太久前的數(shù)據(jù)干擾,使畫像更加符合用戶本身,提高畫像的準確性。
技術領域
本發(fā)明涉及數(shù)據(jù)通信領域,特別是指一種公司用戶畫像的生成方法。
背景技術
隨著互聯(lián)網(wǎng)技術的發(fā)展和大數(shù)據(jù)時代的到來,如何采集、分析和應用用戶的海量數(shù)據(jù),充分釋放其所蘊含的深層次價值,已成為數(shù)據(jù)通信必須面對的課題。其中用戶畫像是真實用戶的虛擬代表,通過構建用戶畫像的方式來了解用戶的屬性信息。企業(yè)用戶畫像即企業(yè)用戶的信息標簽化,收集其企業(yè)社會屬性、歷史行為等信息之后進行分析,抽象出一個企業(yè)的商業(yè)全貌。通過用戶畫像更加精準地挖掘用戶的歷史行為以及喜好,對于一個用戶可以更加深入、精準的了解,以進行后續(xù)相關的銷售、合作等工作。
然而,現(xiàn)有的用戶畫像生成方法中,對用戶的數(shù)據(jù)分析不全面、不準確,不能充分體現(xiàn)用戶的特征,從而導致構建的用戶畫像不能很好地反映用戶的全貌,不能滿足使用需求。并且多是采取離線處理用戶的相關信息,其實時性較差,不能及時跟蹤用戶的變化。
有鑒于此,本發(fā)明人針對上述問題未臻完善所導致的諸多缺失及不便,而深入構思,且積極研究改良試做而開發(fā)設計出本發(fā)明。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種公司用戶畫像的生成方法,提高效率并減輕服務器壓力,其畫像具有更強的準確性和時效性,并保證實時性。
為了達成上述目的,本發(fā)明的解決方案是:
一種公司用戶畫像的生成方法,包括以下步驟:
步驟1、離線畫像
1-1數(shù)據(jù)同步:基于spark搭建畫像系統(tǒng),將用戶數(shù)據(jù)按照不同的業(yè)務需求存儲在多個數(shù)據(jù)源中;將各個數(shù)據(jù)源的數(shù)據(jù)同步一份到hdfs上,得到同步數(shù)據(jù),并定時進行更新;
1-2數(shù)據(jù)清洗:將同步數(shù)據(jù)進行清洗,去除臟數(shù)據(jù)以及缺失字段較多的數(shù)據(jù);
1-3數(shù)據(jù)統(tǒng)計:將統(tǒng)計數(shù)據(jù)類型的畫像按照時間窗口劃分好進行統(tǒng)計,得到統(tǒng)計數(shù)據(jù);
1-4特征預測:通過同步數(shù)據(jù)、統(tǒng)計數(shù)據(jù)和gbdt算法預測缺失的、抽象的深度特征;
1-5離線畫像存儲:將1-3與1-4中生成的所有維度的特征進行合并,通過hive存儲在hdsf中;
步驟2、實時畫像
2-1數(shù)據(jù)傳輸:畫像系統(tǒng)通過kafka將用戶的實時信息發(fā)送至spark streaming,根據(jù)用戶行為更新畫像;
2-2實時畫像生成:將每個窗口的數(shù)據(jù)進行統(tǒng)計并預測,更新到用戶的畫像列表中。
所述步驟1-1中,用戶數(shù)據(jù)包括用戶注冊的基本信息、按用戶需求設定的已建關鍵詞模型、用戶的歷史行為信息、用戶的客戶反饋信息。
所述步驟1-1中,所述數(shù)據(jù)源包括mysql、mongo和es。
所述步驟1-1中,更新時間為每日凌晨。
所述步驟1-4中,深度特征包括例如興趣值、所屬行業(yè)和郵件點擊率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門笨鳥電子商務有限公司,未經(jīng)廈門笨鳥電子商務有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811622697.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)同步方法和數(shù)據(jù)同步系統(tǒng)
- 數(shù)據(jù)同步系統(tǒng)以及數(shù)據(jù)同步方法
- 數(shù)據(jù)同步方法與數(shù)據(jù)同步系統(tǒng)
- 數(shù)據(jù)同步系統(tǒng)及應用數(shù)據(jù)同步系統(tǒng)的數(shù)據(jù)同步方法
- 數(shù)據(jù)同步裝置和數(shù)據(jù)同步方法
- 數(shù)據(jù)同步系統(tǒng)和數(shù)據(jù)同步方法
- 數(shù)據(jù)同步方法和數(shù)據(jù)同步系統(tǒng)
- 數(shù)據(jù)同步方法和數(shù)據(jù)同步系統(tǒng)
- 數(shù)據(jù)同步方法、數(shù)據(jù)同步裝置、數(shù)據(jù)同步設備及存儲介質(zhì)
- 數(shù)據(jù)同步方法和數(shù)據(jù)同步裝置





