[發明專利]基于LDA主題模型的內容推薦方法有效
| 申請號: | 201710386864.5 | 申請日: | 2017-05-26 |
| 公開(公告)號: | CN107247751B | 公開(公告)日: | 2020-01-14 |
| 發明(設計)人: | 崔曉暉;肖蓉;周錦章;牟成豪 | 申請(專利權)人: | 武漢大學 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/35 |
| 代理公司: | 42102 湖北武漢永嘉專利代理有限公司 | 代理人: | 唐萬榮;李丹 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 lda 主題 模型 內容 推薦 方法 | ||
1.一種基于LDA主題模型的內容推薦方法,其特征在于,包括以下步驟:
1)根據需求選擇網站社區話題數據建立中文語料庫;所述網站社區話題數據由該話題下的子話題數據組成;建立中文語料庫具體如下:
1.1)使用爬蟲,獲取所選擇網站社區話題子話題的數據;
1.2)針對每一子話題,使用結巴分詞,過濾停用詞以及回答字數較短的文本,每一帖子作為文檔原始數據;
1.3)針對每一子話題,通過Gensim的dictionary工具建立詞向量以及通過文檔模型建立文檔集合;
2)使用 LDA 主題模型訓練文檔集,建立多個一級主題LDA模型;
2.1)通過子話題原始數據的人工標簽信息,以最小集合的大小確定主題數目;具體如下:
從數據庫中獲取當前一級話題的所有人工標簽信息,進行去重計數,確定主題模型的主題數目 k;所述最小集合為去重后的人工標簽信息集合;
2.2)針對每一個子話題,使用步驟1)中文語料庫中的文檔集訓練Gensim的主題模型;
2.3)根據主題模型的訓練結果,以每個主題的構成的前設定個數的高比重詞語作為該主題的主題關鍵詞;
3)接收用戶輸入信息,針對用戶輸入信息,通過一級主題LDA模型生成主題詞組,應用于該輸入和用戶,應用步驟如下:
3.1) 當用戶在論壇中發布帖子時,默認讓用戶選擇論壇中事先設置的一級話題標簽,獲取帖子和一級話題標簽之后運用與該一級話題標簽對應的主題模型進行主題詞組提取;
3.2)如果用戶針對該發布的帖子,還輸入了若干標簽,那么將用戶輸入標簽和模型生成的主題詞作為最終的主題詞組;
3.3)根據最終的主題詞組更新用戶的標簽;
4) 根據更新后的用戶的標簽進行匹配推薦:
根據用戶的標簽,按照標簽詞語權重依次減少的順序篩選相關內容進行推薦。
2.根據權利要求1所述的基于LDA主題模型的內容推薦方法,其特征在于,所述步驟2.3)中設定個數為3個至5個。
3.根據權利要求1所述的基于LDA主題模型的內容推薦方法,其特征在于,所述步驟3.2)中最終的主題詞組順序為用戶輸入標簽在先,模型生成的主題詞組在后。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢大學,未經武漢大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710386864.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:人工智能交互方法及系統
- 下一篇:一種基于角點描述子的圖像檢索方法





