[發明專利]基于統一概率模型的個性化用戶標簽建模與推薦方法有效
| 申請號: | 201010546780.1 | 申請日: | 2010-11-16 |
| 公開(公告)號: | CN102004774A | 公開(公告)日: | 2011-04-06 |
| 發明(設計)人: | 唐杰;張寧 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 王瑩 |
| 地址: | 100084 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 統一 概率 模型 個性化 用戶 標簽 建模 推薦 方法 | ||
1.一種基于統一概率模型的個性化用戶標簽建模與推薦方法,其特征在于,包括以下步驟:
S1、統計社會標簽網站上用戶的標注行為;
S2、對用戶的標注問題進行形式化定義;
S3、建立基于用戶標注的話題模型,其為一統一概率模型,稱為UdT模型;
S4、建立基于所述UdT模型的標簽推薦系統的框架,所述框架是通過學習用戶的興趣并且根據興趣中包含的語義信息來進行推薦;
S5、驗證所述標簽推薦系統的框架。
2.根據權利要求1所述的方法,其特征在于,所述步驟S2具體包括以下步驟:
S21、將用戶的標注行為形式化為一個三元組,所述三元組包括用戶、標簽和資源三個元素;
S22、形式化定義標注問題中的話題分布,具體來說,建立對應于用戶u∈U的T維話題分布向量θu∈RT,其中,向量θu的各項滿足每一個元素θuz表示用戶u對話題z感興趣的概率;并建立與涉及不同話題的文檔d∈D對應的T維話題分布向量θ∈RT,其中向量θ的各項滿足其中每一個元素θz表示文檔d涉及話題z的概率;
S23、建立基于用戶興趣的話題模型,其中,用戶興趣被描述成一個各種話題的組合,對于不同話題的興趣有不同的概率,該模型用一個該用戶所使用的標簽t的多元正態分布{p(t|θu}來表示,分布{p(t|θu}中概率值最大的標簽t在語義上代表了這個話題;
S24、建立文檔的話題模型,該文檔的話題模型由兩個正態分布組成:單詞w的概率分布{p(w|θ)}和標簽t的概率分布{p(t|θ)},θ表示文檔d的話題的多元正態分布。
3.根據權利要求2所述的方法,其特征在于,所述步驟S3具體為:
估計UdT模型中的兩類未知參數:(1)M個文檔的話題的分布θ、基于用戶興趣的話題分布θu,M個文檔的伯努利分布λ和T個話題的單詞分布φ;(2)對于每一個標簽tdi,與其相關的拋硬幣結果sdi、分配的話題zdi,所述拋硬幣結果滿足伯努利分布λ;對于文檔d中的每一個單詞wdi,與其相關的話題z′di;對于用戶u使用過的每一個標簽tui,與其相關的話題zui。
4.根據權利要求3所述的方法,其特征在于,所述估計UdT模型中的兩類未知參數的方法為:首先估計(a):關于話題z的后驗分布,并利用它估計第一個生成過程中的話題分布θu,然后估計(b):關于拋硬幣結果s和話題z的后驗分布,然后利用它得到第二個生成過程中的參數θ,λ,φ和ψ,其中ψ為單詞的分布,所述第一個生成過程用來模型化用戶興趣的話題分布;所述第二個生成過程用來模型化標注的文檔的話題分布。
5.根據權利要求4所述的方法,其特征在于,在步驟S4中,將UdT模型與語言模型相結合來建立所述標簽推薦系統的框架。
6.根據權利要求5所述的方法,其特征在于,所述將UdT模型與語言模型相結合的方法如下:
首先將兩個模型計算出的分數歸一化,然后根據分數所占的權重將兩種分數相加,從而找到只在一個模型的候選集合中出現的標簽;或者
先對利用UdT模型推薦的標簽進行排序,然后用信息檢索方法重新排序挑選排名前一定數量的標簽重新進行排序。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010546780.1/1.html,轉載請聲明來源鉆瓜專利網。





