[發(fā)明專利]一種基于主題模型和遺忘規(guī)律的興趣預(yù)測(cè)挖掘方法及系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201710480529.1 | 申請(qǐng)日: | 2017-06-22 |
| 公開(公告)號(hào): | CN107357835B | 公開(公告)日: | 2020-11-03 |
| 發(fā)明(設(shè)計(jì))人: | 張可;王鵬;謝文 | 申請(qǐng)(專利權(quán))人: | 電子科技大學(xué);東莞市慧眼數(shù)字技術(shù)有限公司 |
| 主分類號(hào): | G06F16/36 | 分類號(hào): | G06F16/36;G06F16/35;G06F40/30 |
| 代理公司: | 成都金英專利代理事務(wù)所(普通合伙) 51218 | 代理人: | 袁英 |
| 地址: | 610041 四川省成*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 主題 模型 遺忘 規(guī)律 興趣 預(yù)測(cè) 挖掘 方法 系統(tǒng) | ||
本發(fā)明公開了一種基于主題模型和遺忘規(guī)律的興趣預(yù)測(cè)挖掘方法及系統(tǒng),涉及社交用戶的興趣預(yù)測(cè)領(lǐng)域;其方法包括:用戶的興趣周期性發(fā)現(xiàn)、用戶的興趣預(yù)測(cè);一種基于主題模型和遺忘規(guī)律的興趣預(yù)測(cè)挖掘系統(tǒng),包括:興趣周期性發(fā)現(xiàn)模塊、用戶的興趣預(yù)測(cè)模塊和數(shù)據(jù)顯示模塊。本發(fā)明實(shí)現(xiàn)社交網(wǎng)絡(luò)中用戶信息文本主旨的挖掘和用戶興趣的挖掘預(yù)測(cè),并能夠發(fā)現(xiàn)和預(yù)測(cè)用戶興趣愛好的走勢(shì),這對(duì)于網(wǎng)站的推薦效果將會(huì)有很大的提升,具有極高的商業(yè)應(yīng)用價(jià)值。
技術(shù)領(lǐng)域
本發(fā)明涉及社交用戶的興趣預(yù)測(cè)領(lǐng)域,尤其是一種基于主題模型和遺忘規(guī)律的興趣預(yù)測(cè)挖掘方法及系統(tǒng)。
背景技術(shù)
LDA(Latent Dirichlet Allocation)是一種文檔主題模型,它是一種發(fā)掘文檔表達(dá)思想的主題模型,這個(gè)模型最終將文章所包含的多個(gè)語義以概率分布的形式呈現(xiàn)在結(jié)果中。艾賓浩斯遺忘曲線是由德國心理學(xué)家艾賓浩斯(H.Ebbinghaus)研究發(fā)現(xiàn)的,曲線表示了人記憶的規(guī)律,人們可以利用這個(gè)曲線,提升自己的記憶能力。
社交網(wǎng)絡(luò)(Social Network)是人寄托和表達(dá)自己情感的地方,同時(shí)通過社交網(wǎng)絡(luò)可以結(jié)交很多朋友。人們?cè)谏缃痪W(wǎng)絡(luò)上進(jìn)行著內(nèi)容的產(chǎn)生,同時(shí)也結(jié)交著興趣相投的朋友。由于人們?cè)谏缃痪W(wǎng)絡(luò)中發(fā)掘朋友的能力有限,目前在社交網(wǎng)絡(luò)中,進(jìn)行好友推薦是由社交網(wǎng)站負(fù)責(zé),并且如何更好的提升推薦準(zhǔn)確度一直是社交網(wǎng)站的工作重點(diǎn)。此外,社交網(wǎng)站由于盈利的需要,也需要向用戶推薦他可能感興趣的事物,因此,獲得用戶的興趣所在也是社交網(wǎng)絡(luò)的關(guān)注點(diǎn)。
LDA(Latent Dirichlet Allocation)作為一個(gè)主題發(fā)掘模型可以很好的發(fā)現(xiàn)用戶所要表達(dá)的主旨。
艾賓浩斯遺忘曲線作為一個(gè)記憶遺忘規(guī)律曲線,由于用戶的興趣可以作為用戶的一個(gè)記憶,因此可以利用艾賓浩斯遺忘曲線很好的發(fā)現(xiàn)用戶某時(shí)刻很感興趣的興趣愛好。
由于記憶有著記憶的周期。因此,獲得用戶的興趣周期,并在此基礎(chǔ)上進(jìn)行用戶興趣的挖掘,對(duì)接下來進(jìn)行的好友推薦和興趣針對(duì)推薦有著重要意義。
但在現(xiàn)在的社交網(wǎng)絡(luò)中,在給用戶推薦好友時(shí),多是依靠用戶之間的聯(lián)系(即共同好友)和用戶提及的關(guān)鍵字。由于用戶文本信息的內(nèi)容多樣性,可能文本的主旨和關(guān)鍵字有著偏差。并且現(xiàn)在的推薦算法在向用戶推薦感興趣的事物時(shí)過多的在意用戶當(dāng)前關(guān)注的點(diǎn),而忽視了用戶一直存在的興趣愛好和可能潛在的興趣愛好。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種基于主題模型和遺忘規(guī)律的興趣預(yù)測(cè)挖掘方法及系統(tǒng),實(shí)現(xiàn)社交網(wǎng)絡(luò)中用戶信息文本主旨的挖掘和用戶興趣的挖掘預(yù)測(cè),并能夠發(fā)現(xiàn)和預(yù)測(cè)用戶興趣愛好的走勢(shì),這對(duì)于網(wǎng)站的推薦效果將會(huì)有很大的提升,具有極高的商業(yè)應(yīng)用價(jià)值。
本發(fā)明的目的是通過以下技術(shù)方案來實(shí)現(xiàn)的:一種基于主題模型和遺忘規(guī)律的興趣預(yù)測(cè)挖掘方法,它具體包括如下步驟:
S001用戶的興趣周期性發(fā)現(xiàn):確定待測(cè)事件,通過該事件發(fā)生后的關(guān)注度的走勢(shì)曲線得到興趣周期,即用戶興趣的產(chǎn)生周期天數(shù);
S002用戶的興趣預(yù)測(cè):將用戶最近的用戶文檔以興趣周期為分段間隔分為N個(gè)周期文檔,以最近一個(gè)興趣周期的用戶文檔為數(shù)據(jù)基礎(chǔ)建立LDA主題模型,將N個(gè)興趣周期的用戶文檔輸入已建立的主題模型,并獲得主題模型上的概率分布,對(duì)N個(gè)興趣周期的概率分布進(jìn)行加權(quán)處理,對(duì)最終結(jié)果進(jìn)行加權(quán)并得到最終預(yù)測(cè)的興趣概率。
進(jìn)一步的,所述的步驟S002具體包括如下子步驟:
S201確定用戶興趣周期的天數(shù);
S202確定遺忘曲線記憶時(shí)間為N個(gè)階段;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于電子科技大學(xué);東莞市慧眼數(shù)字技術(shù)有限公司,未經(jīng)電子科技大學(xué);東莞市慧眼數(shù)字技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710480529.1/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。





