[發(fā)明專利]一種基于用戶雙詞主題模型的短文本推薦方法在審
| 申請?zhí)枺?/td> | 201510979801.1 | 申請日: | 2015-12-23 |
| 公開(公告)號: | CN105608192A | 公開(公告)日: | 2016-05-25 |
| 發(fā)明(設(shè)計(jì))人: | 呂建;徐鋒;魏杰 | 申請(專利權(quán))人: | 南京大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 南京蘇高專利商標(biāo)事務(wù)所(普通合伙) 32204 | 代理人: | 李玉平 |
| 地址: | 210046 江蘇*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 用戶 主題 模型 文本 推薦 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及文本推薦,特別是側(cè)重于短文本的推薦。在主題分析技術(shù)的基礎(chǔ)上,擴(kuò) 展了雙詞模型,利用了文本的作者信息,有效增強(qiáng)了其在短文本情景下的主題提取能力,并 提高了其在短文本推薦系統(tǒng)中的預(yù)測精度。
背景技術(shù)
近年來,隨著互聯(lián)網(wǎng)與智能移動設(shè)備的快速發(fā)展,以Twitter,微博等為代表的社 交媒體應(yīng)用變得越來越受歡迎,個人網(wǎng)站,博客,社交網(wǎng)站等應(yīng)用每天會涌現(xiàn)出大量的信 息,使得用戶難以獲得有效的信息,即導(dǎo)致了嚴(yán)重的信息過載問題,用戶很難在大量產(chǎn)生的 信息中找到自己感興趣的內(nèi)容。文本推薦,可針對不同用戶的具體情況給用戶推薦滿足其 喜好的文本信息,成為了解決信息過載問題的有效途徑。
文本推薦的核心步驟之一是從文本中抽取有價值的特征,主題分析則是一種常見 的特征抽取方法。常見的主題分析技術(shù)包括,隱含語義分析(LSA)和隱含狄利克雷分布 (LDA)模型,基于LDA模型,又出現(xiàn)了多個擴(kuò)展模型如sLDA,Labeled-LDA等,這類方法均利用 到了詞語共現(xiàn)的統(tǒng)計(jì)數(shù)據(jù)來分析文本的主題分布。此類方法均以文本中的單詞為基本的處 理單位,在文本包含的單詞較少的情況下,抽取的主題質(zhì)量較差,而當(dāng)前的很多社交媒體如 Twitter、微博等文本信息均為短文本信息,上述主題分析技術(shù)較難從這些短文本中抽取出 高質(zhì)量的主題分布。
為此,也有研究工作基于LDA提出了一種雙詞主題模型BTM,試圖通過單詞間共現(xiàn) 關(guān)系,擴(kuò)展單個短文本的單詞數(shù)量,并將所有文檔集合成一個單一的大文檔進(jìn)行處理,此類 方法一定程度上提高了短文本的主題分析質(zhì)量。但此類方法存在一個較為明顯的缺陷,沒 有考慮短文本的作者信息,只依賴文本中兩個單詞的共現(xiàn)來分析短文本的主題,由于丟失 較為重要的信息,導(dǎo)致主題分析的質(zhì)量難以滿足短文本推薦的要求。
發(fā)明內(nèi)容
發(fā)明目的:由于傳統(tǒng)的以單詞為基本處理單位的文本主題分析技術(shù)難以高質(zhì)量地 抽取短文本的主題特征,使得其難以應(yīng)用于短文本推薦場景,而短文本推薦技術(shù)則是解決 當(dāng)前社交媒體中信息過載問題的有效手段。為此,本發(fā)明基于雙詞主題模型,進(jìn)一步利用短 文本的作者信息,提出了一種基于用戶聚合的雙詞主題模型,并給出了一種基于此主題抽 取模型的短文本推薦方法,有效地解決了上述問題。
技術(shù)方案:一種基于用戶雙詞主題模型的短文本推薦方法,為一種新的基于用戶 文本聚合的雙詞短文本主題分析技術(shù),并利用該主題分析技術(shù)來分析用戶的歷史文本信 息,獲取用戶的主題偏好,實(shí)現(xiàn)了一種個性化的短文本推薦系統(tǒng)。此方法的主要內(nèi)容包括:
1)構(gòu)建基于用戶文本聚合的雙詞短文本主題模型-UBTM;
2)基于Gibbs采樣的UBTM模型求解及短文本主題推斷方法;
構(gòu)建基于用戶文本聚合的雙詞短文本主題模型-UBTM:
將文檔中的任意兩個單詞配成詞對,并且把屬于同一個用戶的文檔聚合在一起, 給出了一個新的概率圖模型UBTM。該模型有效解決了短文檔的內(nèi)容稀疏問題,并能估計(jì)出 單個用戶的主題分布(偏好)。
UBTM模型的用戶文檔生成過程如下:
依據(jù)以上過程,我們可以推斷用戶u的一個詞對b=(wi,wj)的聯(lián)合概率分布:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京大學(xué),未經(jīng)南京大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510979801.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)





