[發明專利]基于用戶訪問數據的用戶畫像形成方法有效
| 申請號: | 201610935388.3 | 申請日: | 2016-11-01 |
| 公開(公告)號: | CN106599022B | 公開(公告)日: | 2019-12-10 |
| 發明(設計)人: | 聶琳;林倞;王青;羅思偉 | 申請(專利權)人: | 中山大學 |
| 主分類號: | G06F16/953 | 分類號: | G06F16/953;G06F16/951;G06F16/9535;G06F16/35;G06F17/27 |
| 代理公司: | 44102 廣州粵高專利商標代理有限公司 | 代理人: | 林麗明 |
| 地址: | 510275 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 用戶 訪問 數據 畫像 形成 方法 | ||
本發明提供的方法利用爬蟲工具、提取算法、中文分詞方法對網頁中的內容進行獲取和自動處理,其智能化、自動化程度較高,很好地解決了現有技術的缺陷。且本發明提供的方法利用機器學習方法,學習出用戶的特征,以表現出用戶的生活、購物等行為偏好。
技術領域
本發明涉及計算機技術領域,更具體地,涉及一種基于用戶訪問數據的用戶畫像形成方法。
背景技術
大數據一般是指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力來適應海量、高增長率和多樣化的信息資產。
用戶畫像是大數據時代下產生的重要的技術應用,其目標是在建立多維的針對用戶的描述性標簽屬性,從而利用這些標簽屬性對用戶多方面的真實個人特征進行勾勒,進而,可以利用用戶畫像發掘用戶需求,分析用戶偏好,并通過匹配用戶畫像提供給用戶更高效和更有針對性的信息輸送以及更貼近個人習慣的用戶體驗。
目前用戶畫像的形成一般應用于電子商務網站、新聞推薦系統等,旨在更準確地向用戶推薦其感興趣的商品或新聞,提高用戶體驗。
建立用戶畫像的數據一般有用戶現實生活中的數據和網絡行為數據。現實生活中的數據包括用戶的基本信息如姓名、性別、年齡、運動愛好等數據,而網絡行為數據包括用戶在互聯網世界里進行網頁訪問、游戲、聽音樂、看電影、社交等行為記錄。
協同過濾(英語:Collaborative Filtering),作為用戶畫像與推薦系統的一種經典方法,簡單來說是利用興趣相投、擁有共同經驗之群體的喜好來推薦用戶感興趣的信息,個人通過合作的機制給予信息相當程度的回應(如評分)并記錄下來以達到過濾的目的進而幫助別人篩選信息,回應不一定局限于特別感興趣的,特別不感興趣信息的紀錄也相當重要。
基于內容的推薦則是根據內容本身的屬性(特征向量)所作的推薦。需要先對產品進行特征提取(向量化),根據用戶的歷史信息建立用戶的偏好文檔,這個偏好文檔,可是看作用戶畫像。根據這個畫像,可以找到適合用戶的商品和服務進行推薦。
但是上述方法在具體實施的時候均需人工標注網頁數據,其處理的效率較低。
發明內容
本發明為解決以上現有技術的難題,提供了一種基于用戶訪問數據的用戶畫像形成方法,該方法在具體實施的過程中無需對網頁數據進行標注,其處理效率高,且能夠利用機器學習方法,學習出用戶的特征,以表現出用戶的生活、購物等行為偏好。
為實現以上發明目的,采用的技術方案是:
一種基于用戶訪問數據的用戶畫像形成方法,包括以下步驟:
S1.對用戶的訪問數據進行過濾,將訪問數據中無關的請求鏈接過濾掉,得到相關的訪問鏈接;
S2.使用爬蟲工具抓取相關的訪問鏈接對應的網頁,然后使用提取算法將所抓取網頁中的文本信息提取出來;
S3.使用中文分詞方法對提取出來的文本信息進行分詞處理,其中每個網頁的文本信息經過分詞處理后得到的詞匯列表存儲在一個文檔中;
S4.對網絡上公開的語料庫進行分詞處理,然后基于分詞處理后的語料庫使用詞向量技術訓練出詞向量Word2Vec,得到中文詞語的分布式表達;
S5.創建Doc2Vec模型,利用詞向量Word2Vec對Doc2Vec模型進行初始化,然后將每個文檔中的詞匯列表分別輸入至Doc2Vec模型中,文檔中的詞匯列表對Doc2Vec模型進行訓練,Doc2Vec模型的輸出為該文檔對應的網頁的分布式表達;
S6.對于每個標簽,訓練一個用于判斷分布式表達中是否帶有此標簽的判斷分類器;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中山大學,未經中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610935388.3/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





