[發明專利]一種基于主題模型和遺忘規律的興趣預測挖掘方法及系統有效
| 申請號: | 201710480529.1 | 申請日: | 2017-06-22 |
| 公開(公告)號: | CN107357835B | 公開(公告)日: | 2020-11-03 |
| 發明(設計)人: | 張可;王鵬;謝文 | 申請(專利權)人: | 電子科技大學;東莞市慧眼數字技術有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/35;G06F40/30 |
| 代理公司: | 成都金英專利代理事務所(普通合伙) 51218 | 代理人: | 袁英 |
| 地址: | 610041 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 主題 模型 遺忘 規律 興趣 預測 挖掘 方法 系統 | ||
1.一種基于主題模型和遺忘規律的興趣預測挖掘方法,其特征在于,它具體包括如下步驟:
S001用戶的興趣周期性發現:確定待測事件,通過該事件發生后的關注度的走勢曲線得到興趣周期,即用戶興趣的產生周期天數;
S002用戶的興趣預測:將用戶最近的用戶文檔以興趣周期為分段間隔分為N個周期文檔,以最近一個興趣周期的用戶文檔為數據基礎建立LDA主題模型,將N個興趣周期的用戶文檔輸入已建立的主題模型,并獲得主題模型上的概率分布,對N個興趣周期的概率分布進行加權處理,對最終結果進行加權并得到最終預測的興趣概率;
所述的步驟S002具體包括如下子步驟:
S201確定用戶興趣周期的天數;
S202確定遺忘曲線記憶時間為N個階段;
S203判斷是否存在興趣召回,若存在興趣召回,則在用戶文檔中和主題模型概率分布中有明確周期性顯示,不考慮用戶興趣召回會帶來的影響;若不存在興趣召回,則在其余周期的主題模型概率分布中,判定興趣為突發興趣;
S204將用戶最近的用戶文檔以艾賓浩斯遺忘曲線記憶時間的階段數為分段間隔,分為N個周期文檔;
S205將所有的周期文檔去除停用詞;
S206將距離當前時間最近的一個用戶周期文檔作為LDA主題模型的輸入文檔,建立LDA主題模型;
S207其余N-1個周期的文檔輸入已建好的主題模型,并獲得在這個主題模型上的興趣概率分布;
S208對興趣進行類別判定;
S209對N個興趣周期的概率分布進行加權處理,由于在艾賓浩斯遺忘曲線中,第六階段和第五階段的時間間隔很大,但記憶量比例差別很小,故可以認為第五階段之后用戶的記憶不會發生衰減,實際過程中可以取N值為5,最終獲得加權后的概率分布;
S210對最終結果進行加權,由于預測的是下一周期,所以興趣也會按照艾賓浩斯遺忘曲線進行迭代,并得到最終預測的興趣概率。
2.根據權利要求1所述的一種基于主題模型和遺忘規律的興趣預測挖掘方法,其特征在于:所述的S208對興趣進行類別判定,是對比距離當前時間最近的兩個周期的文檔體現出的概率分布,獲得相同興趣的概率分布差絕對值,在兩個周期的相同興趣概率分布中,若獲得的概率分布差絕對值是兩個周期興趣概率分布值中較小值的兩倍及以上,則這個興趣為新興興趣或突發興趣。
3.一種基于主題模型和遺忘規律的興趣預測挖掘系統,采用如權利要求1-2任意一項所述的基于主題模型和遺忘規律的興趣預測挖掘方法,其特征在于,它包括用戶的興趣周期性發現模塊、用戶的興趣預測模塊和數據顯示模塊;
所述的興趣周期性發現模塊,確定待測事件,通過該事件發生后的關注度的走勢曲線得到興趣周期,即用戶興趣的產生周期天數;
所述的用戶的興趣預測模塊,將用戶最近的用戶文檔以興趣周期為分段間隔分為N個周期文檔,以最近一個興趣周期的用戶文檔為數據基礎建立LDA主題模型,將N個興趣周期的用戶文檔輸入已建立的主題模型,并獲得主題模型上的概率分布,對N個興趣周期的概率分布進行加權處理,對最終結果進行加權并得到最終預測的興趣概率;
所述的數據顯示模塊,將處理后的數據進行呈現。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學;東莞市慧眼數字技術有限公司,未經電子科技大學;東莞市慧眼數字技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710480529.1/1.html,轉載請聲明來源鉆瓜專利網。





