[發明專利]一種基于微博標簽的人群畫像系統和方法有效
| 申請號: | 201310481674.3 | 申請日: | 2013-10-16 |
| 公開(公告)號: | CN103577549B | 公開(公告)日: | 2017-02-15 |
| 發明(設計)人: | 陽德青;肖仰華;汪衛 | 申請(專利權)人: | 復旦大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 上海正旦專利代理有限公司31200 | 代理人: | 陸飛,王潔平 |
| 地址: | 200433 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 標簽 人群 畫像 系統 方法 | ||
技術領域
本發明屬于無線通信網絡技術領域,具體涉及一種基于微博標簽的人群畫像系統和方法。
背景技術
微博是現階段最熱門的社交媒體,以新浪、騰訊為代表的國內微博網站的用戶規模在近幾年得到飛速增長。以新浪微博為例,截止到2012年底,其注冊用戶數已經超過5億,而每天的活躍用戶數就已經突破4620萬人。隨著微博的快速發展,和其相關的各種應用和服務正在創造越來越多的商業價值。
讓用戶使用個性標簽是新浪和騰訊等主流微博網站提供的一個重要服務,用戶可以使用這些標簽來描述自己的身份、職業、興趣、宗教信仰等個人屬性,甚至是表達自己的某些觀點。作為用戶個人屬性描述的重要補充,用戶的標簽連同個人信息頁面的其它內容都能作為瀏覽者詳細了解該用戶的重要信息來源。而深入了解一個用戶則對很多現實的應用有所幫助,如特殊用戶搜索、好友推薦、在線廣告和企業的客戶關系管理等等。因此,為每個微博用戶推薦一組能夠準確描述用戶相關屬性的標簽用于刻畫不同用戶群體的特征,或稱作用戶人群畫像,具有重要意義。
現有的社會標注系統大都針對網絡物體的標注,如Flickr網站中的圖片或者URL鏈接資源。這些系統都是為用戶提供標簽來標注物體,而非用戶本身。像很多以協同過濾(collaborative?filtering)[1]為基本推薦機制的推薦算法都是建立在這樣一個假設之上。假設用戶A和用戶B之前已經對很多物體對象的標注使用了相同或相似的標簽,就說明A和B對事物的認知非常相似,那么A對于一個新物體的標注則很有可能使用B對該物體用過的相同標簽。但是,在對微博用戶的標注中,這種假設并不成立,用戶只會對自己標注,甚至很多用戶對自己都沒有使用任何標簽。因此已有的社會標簽推薦系統使用的方法并不能直接應用于微博用戶標簽的場景
社會標注更看重大多數人對某一物體對象的集體偏好來做標簽推薦,而標注微博用戶卻要考慮如何真實地刻畫被標注用戶的個人偏好。?顯然,發掘用戶的個人特性和偏好要比尋找大眾的偏好更難,因為每個人都有自己獨特的個性。
發明內容
本發明的目的在于通過設計一個有效的微博用戶推薦系統,提供一種基于微博標簽的人群畫像系統和方法。其需要解決以下幾個問題。
1、做標簽推薦時需要面對協同過濾類推薦算法經常遇見的一個難題――冷啟動(cold?start)問題,尤其考慮到新浪微博用戶中有將近一半的人是沒有任何標簽的。所謂冷啟動,是指在向一個用戶推薦某個新出現的物體(如某件商品)時,由于對于該物體沒有歷史的推薦記錄可以參考,使得推薦算法無法起作用。
2、第二個挑戰是要考慮到被推薦的標簽足夠多樣化才能充分的刻畫一個人多方面的屬性,因為一個真實的人遠比一個物體復雜,他可以使用很多個標簽來分別描述自己各個方面的特性,例如教育背景、興趣愛好,甚至是崇拜的明星等等。怎樣才能找出一組多樣化的標簽是非常具有挑戰性的工作。
3做標簽推薦時應當注意到推薦的標簽中存在的語義冗余問題。如新浪微博只允許一個用戶最多使用10個標簽,那么每個用戶自然希望每個標簽都盡可能地描述自己,對于同義詞或者近義詞一般來說是不會同時放入自己的標簽組中。相比之下,對于同一個物體對象的描述,使用同義詞或者近義詞標簽則是很常見的。因而,在這些標注物體的標簽推薦系統中,語義冗余問題是可以回避的。
針對以上需要解決的技術難題和研究目的,本發明在以往相關研究技術的基礎上,融入全新的算法思想,并借助海量的互聯網語義實體信息(中文知識圖譜)實現了準確的微博用戶人群畫像技術。
本發明提供的一種基于微博標簽的人群畫像系統,主要分為微博用戶標簽推薦和標簽主題聚類兩大模塊,其中:
所述微博用戶標簽推薦模塊,分別利用微博用戶的同質性和標簽的共現性關聯來產生候選的標簽,再利用中文知識圖譜識別標簽的語義冗余,進而消除候選標簽中的冗余標簽,實現微博用戶推薦;
所述標簽主題聚類模塊,通過對推薦出的每一個微博用戶的標簽進行LDA主題聚類分析,獲得每個用戶的主題分布向量,從而判斷出用戶所屬的人群以及度量用戶間的差異性距離以刻畫不同用戶群體的特征,實現用戶人群畫像。
圖1所示為本發明的整體技術框架。
本發明中,微博用戶的標簽推薦模塊中涉及的推薦算法涵蓋三個主要的工作步驟。算法的每一步正好應對了上述每一個挑戰中的難題。
涉及的標簽推薦算法三個步驟簡述如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于復旦大學,未經復旦大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310481674.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種定時寵物喂食裝置
- 下一篇:半導體器件制造方法





