[發明專利]一種基于Hadoop平臺的信息推薦方法及系統在審
| 申請號: | 202010542277.2 | 申請日: | 2020-06-15 |
| 公開(公告)號: | CN111695020A | 公開(公告)日: | 2020-09-22 |
| 發明(設計)人: | 張梓光;肖明;張小芳;許宋碩;周敏;魯虎 | 申請(專利權)人: | 廣東工業大學 |
| 主分類號: | G06F16/9532 | 分類號: | G06F16/9532;G06F16/9535;G06F16/35;G06F40/289;G06F40/30 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 郭帥 |
| 地址: | 510060 廣東省*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 hadoop 平臺 信息 推薦 方法 系統 | ||
1.一種基于Hadoop平臺的信息推薦方法,其特征在于,包括:
獲取文本信息及其對應的發布者信息,對文本信息進行去噪處理,將經過去噪處理的文本信息和發布者信息存儲于Hadoop平臺的HDFS系統;
利用MapReduce計算框架對HDFS系統中存儲的文本信息和發布者信息進行分割和序化,生成多個文本信息及其對應發布者信息的鍵值對,合并同一發布者的鍵值對生成多個鍵值對列表;
利用LDA主題模型對鍵值對列表進行主題建模得到每一條文本信息的主題特征,根據LDA主題模型的建模結果對文本信息進行聚類;
根據文本信息的聚類結果對用戶進行信息推薦。
2.根據權利要求1所述的基于Hadoop平臺的信息推薦方法,其特征在于,所述對文本信息進行去噪處理包括:
將文本信息轉換為統一的語言。
3.根據權利要求2所述的基于Hadoop平臺的信息推薦方法,其特征在于,所述對文本信息進行去噪處理還包括:
把文本信息中攜帶的特殊符號轉換為文字以保留文本信息的情感特征。
4.根據權利要求3所述的基于Hadoop平臺的信息推薦方法,其特征在于,所述對文本信息進行去噪處理還包括:
利用ICTCLAS分詞系統對文本信息進行分詞。
5.根據權利要求4所述的基于Hadoop平臺的信息推薦方法,其特征在于,所述對文本信息進行去噪處理還包括:
去除文本信息中的停用詞以減少文本信息在HDFS系統中的存儲空間。
6.根據權利要求1所述的基于Hadoop平臺的信息推薦方法,其特征在于,所述對文本信息進行聚類包括:
利用余弦相似度計算文本信息的相似性,根據相似性的計算結果對文本信息進行聚類。
7.根據權利要求7所述的基于Hadoop平臺的信息推薦方法,其特征在于,所述利用余弦相似度計算文本信息的相似性包括:
利用向量空間模型VSM把文本信息簡化為空間向量,文本信息的余弦相似度如下式計算
Ai和Bi分別表示參與相似度計算的兩個文本信息的基于向量空間模型VSM的空間向量。
8.根據權利要求1所述的基于Hadoop平臺的信息推薦方法,其特征在于,所述根據文本信息的聚類結果對用戶進行信息推薦包括:
根據文本信息的聚類結果計算候選文本信息與用戶的閱讀歷史和/或對文本信息的評分的相似度并生成待推薦列表,對待推薦列表進行索引完成對用戶的信息推薦。
9.根據權利要求1所述的基于Hadoop平臺的信息推薦方法,其特征在于,所述獲取文本信息及其對應的發布者信息包括:
模擬用戶登錄,下載任一頁面URL進行頁面解析獲取發布者信息,根據發布者信息獲取其發布的文本信息。
10.一種基于Hadoop平臺的信息推薦系統,其特征在于,包括:
信息獲取模塊,用于獲取文本信息及其對應的發布者信息;
信息存儲模塊,其中運行有Hadoop計算框架的HDFS系統以存儲經過去噪處理的文本信息和發布者信息;
鍵值對生成模塊,其中運行有MapReduce計算框架以對HDFS系統中存儲的文本信息和發布者信息進行分割和序化,生成多個文本信息及其對應發布者信息的鍵值對,合并同一發布者的鍵值對生成多個鍵值對列表;
文本信息主題建模模塊,利用LDA主題模型對鍵值對生成模塊中獲得的鍵值對列表進行主題建模得到每一條文本信息的主題特征;
文本信息聚類模塊,根據LDA主題模型的建模結果對文本信息進行聚類用于對用戶進行信息推薦;
推薦模塊,根據文本信息的聚類結果對用戶進行信息推薦。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東工業大學,未經廣東工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010542277.2/1.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





