[發明專利]一種基于大數據的移動終端用戶畫像構建方法及系統有效
| 申請號: | 202010207233.4 | 申請日: | 2020-03-23 |
| 公開(公告)號: | CN111444236B | 公開(公告)日: | 2023-04-28 |
| 發明(設計)人: | 張星明;何偉成 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458;G06F16/25;G06F16/27;G06F16/28;G06F16/182;G06F18/23213;G06F16/9535 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 馮炳輝 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 數據 移動 終端 用戶 畫像 構建 方法 系統 | ||
本發明公開了一種基于大數據的移動終端用戶畫像構建方法及系統,包括步驟:1)建立用戶畫像標簽體系;2)梳理需要獲取的用戶行為信息并形成數據埋點需求,數據埋點在移動終端進行數據采集,將采集到的用戶行為信息存儲到分布式文件系統;3)解析存儲在分布式文件系統的用戶行為信息,并將處理后的用戶行為信息存儲到分布式數據庫;4)從分布式數據庫中提取用戶特征,并存儲到特征數據庫;5)基于用戶畫像標簽體系,對于每一個標簽,在特征數據庫中選擇與該標簽相關的用戶特征,通過聚類算法與人工標簽規則確定用戶所屬的標簽,并保存到用戶畫像數據庫。本發明解決傳統方法過于依賴人工規則、在大數據情景下效率低下等問題,提升用戶畫像效率和準確率。
技術領域
本發明涉及大數據處理與分析技術領域,尤其是指一種基于大數據的移動終端用戶畫像構建方法及系統。
背景技術
在手機硬件日益同質化以及硬件“軍備競賽”不賺錢的今天,國內產商正在加緊手機“軟實力”的探索步伐,紛紛打造智能生態圈,軟硬兼施,希望以此形成自身的競爭優勢,擺脫當前的盈利困局。經過多年的發展,各手機產商積累了海量的用戶行為數據,數據規模正在向TB乃至PB級別邁進。在大數據時代,海量的數據為手機廠商提供了一個通過數據理解用戶的機會,誰更了解自己用戶的使用習慣、瀏覽偏好等,誰就能夠更精準地為用戶提供更好的服務,改進產品設計,提升用戶體驗,從而在激烈的競爭中脫穎而出。
用戶畫像便是這樣的一種技術,它通過對現實世界用戶進行建模,將用戶的興趣喜好標簽化,用一系列標簽性的詞語描述用戶特點,方便理解用戶。用戶畫像的主要工作是給用戶打標簽,目的是為了便于人們理解并且方便計算機處理。用戶畫像系統的構建從原始數據采集到最終獲得分析結果一般要經過幾個主要步驟,包括數據采集、數據預處理、數據存儲與管理、數據挖掘等。傳統的數據采集來源單一,且存儲、管理和分析數據量也相對較小,大多使用關系型數據庫和分段數據倉庫即可處置。對依賴并行計算提高數據處理速度方面而言,傳統的分段數據庫技術要保證高度一致性和容錯性,根據CAP理論,難以確保其可用性和擴展性。手機廠商一般可以通過SDK埋點的方式,每天收集手機系統運行信息以及用戶行為數據,然后以文件的形式保存到日志文件中,并按一定的策略上載到日志服務器。面對如此大規模并持續增長的非結構化數據,傳統的關系型數據庫是很難高效處理的,而需要設計一個具有高并發、高可用、可擴展的大數據系統。傳統的用戶畫像構建方法一般采用基于人工規則的方式,這種方法在預測的準確度上很大程度取決于規則制定人員的對業務的理解,模型泛化性差。另外,在大數據的場景下,傳統的用戶畫像構建方法存在效率低、擴展性差等問題,并且用戶的興趣偏好是處于一種動態改變的狀態,因此用戶的標簽也可能改變。
發明內容
本發明的目的在于克服現有技術的缺點與不足,提出了一種基于大數據的移動終端用戶畫像構建方法及系統,通過分布式數據采集技術將用戶行為數據采集到云平臺,應用分布式并行計算提取用戶特征,利用聚類算法和標簽規則相結合的方式將用戶分群并確定用戶標簽,可以提高用戶畫像的效率和預測結果的可解釋性及準確率,解決傳統方法過于依賴人工規則、在大數據情景下效率低下等問題,使得用戶畫像的效率、準確率、可解釋性在大數據情景下得到了提升。
為實現上述目的,本發明所提供的技術方案為:一種基于大數據的移動終端用戶畫像構建方法,包括以下步驟:
1)結合業務需求,自頂向下地建立用戶畫像標簽體系;
2)根據用戶畫像標簽體系,梳理需要獲取的用戶行為信息并形成數據埋點需求,數據埋點在移動終端進行數據采集,將采集到的用戶行為信息存儲到分布式文件系統;
3)解析存儲在分布式文件系統的用戶行為信息,并將處理后的用戶行為信息存儲到分布式數據庫;
4)從分布式數據庫中提取用戶特征,包括靜態特征和動態特征,并將提取的用戶特征存儲到特征數據庫,為用戶畫像計算提供數據基礎;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010207233.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種全自動免疫組化儀蓋片的洗滌方法
- 下一篇:一種人車語音交互系統
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





