[發明專利]一種基于Hadoop平臺的信息推薦方法及系統在審
| 申請號: | 202010542277.2 | 申請日: | 2020-06-15 |
| 公開(公告)號: | CN111695020A | 公開(公告)日: | 2020-09-22 |
| 發明(設計)人: | 張梓光;肖明;張小芳;許宋碩;周敏;魯虎 | 申請(專利權)人: | 廣東工業大學 |
| 主分類號: | G06F16/9532 | 分類號: | G06F16/9532;G06F16/9535;G06F16/35;G06F40/289;G06F40/30 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 郭帥 |
| 地址: | 510060 廣東省*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 hadoop 平臺 信息 推薦 方法 系統 | ||
本申請一種基于Hadoop平臺的信息推薦方法及系統,其步驟主要包括:(1)獲取文本信息和發布者信息,對文本信息進行去噪處理并存儲于HDFS系統中;(2)利用MapReduce對存儲于HDFS系統的文本信息和發布者信息生成鍵值對列表;(3)LDA主題模型根據鍵值對列表進行主題建模;(4)對文本信息聚類,根據聚類結果完成信息推薦;利用Hadoop分布式存儲信息的特點對待推薦的文本信息進行初步過濾,建立信息發布者和文本信息的映射關系;結合Hadoop平臺和LDA主題模型對文本信息二次過濾可對文本信息的主題實現精細化提取,提升推薦系統對文本信息的存取率和推薦前文本信息查詢的準確度,進而保證信息推薦的有效性和精準程度。
技術領域
本發明屬于數據挖掘領域,具體涉及一種基于Hadoop平臺的信息推薦方法及系統。
背景技術
隨著互聯網技術的發展,越來越多的用戶在線或使用移動設備瀏覽新聞,新聞應用已成為最熱門的互聯網應用之一,僅略低于網絡音樂。然而海量的網絡新聞會帶來信息過載的問題,因此幫助用戶篩選或推薦有用的新聞信息成為重要的研究課題。海量的用戶涉及上千萬級的關注關系和博文發布量,用戶間的互動行為和閱讀行為更是可達上十億級別,隨著用戶數和博文量等數據的激增,現有的推薦模型和處理方法出現以下缺陷:對文本數據處理的精準度降低;主題挖掘和信息推薦的性能不足;未能較好解決用戶數據稀疏問題,這些缺陷使得現有的推薦模型和處理方法無法滿足用戶推薦需求,阻礙新聞應用平臺的推廣,進而影響用戶滿意度。
發明內容
基于此,本發明提供一種基于Hadoop平臺的信息推薦方法及系統,利用Hadoop平臺分布式處理數據的特點在分類推薦之前對信息初步過濾來提高推薦的精準度,以克服現有技術的缺陷。
本發明一種基于Hadoop平臺的信息推薦方法,包括:
獲取文本信息及其對應的發布者信息,對文本信息進行去噪處理,將經過去噪處理的文本信息和發布者信息存儲于Hadoop平臺的HDFS系統;
利用MapReduce計算框架對HDFS系統中存儲的文本信息和發布者信息進行分割和序化,生成多個文本信息及其對應發布者信息的鍵值對,合并同一發布者的鍵值對生成多個鍵值對列表;
利用LDA主題模型對鍵值對列表進行主題建模得到每一條文本信息的主題特征,根據LDA主題模型的建模結果對文本信息進行聚類;
根據文本信息的聚類結果對用戶進行信息推薦。
優選地,對文本信息進行去噪處理包括:
將文本信息轉換為統一的語言。
優選地,對文本信息進行去噪處理還包括:
把文本信息中攜帶的特殊符號轉換為文字以保留文本信息的情感特征。
優選地,對文本信息進行去噪處理還包括:
利用ICTCLAS分詞系統對文本信息進行分詞。
優選地,對文本信息進行去噪處理還包括:
去除文本信息中的停用詞以減少文本信息在HDFS系統中的存儲空間。
優選地,對文本信息進行聚類包括:
利用余弦相似度計算文本信息的相似性,根據相似性的計算結果對文本信息進行聚類。
優選地,計算文本信息相似性包括:
利用向量空間模型VSM把文本信息簡化為空間向量,則文本信息的余弦相似度如下式計算
Ai和Bi分別表示參與相似度計算的兩個文本信息的基于向量空間模型VSM的空間向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東工業大學,未經廣東工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010542277.2/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





