日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種新聞實時推薦系統及其方法在審

專利信息
申請號: 201611138281.2 申請日: 2016-12-12
公開(公告)號: CN106599174A 公開(公告)日: 2017-04-26
發明(設計)人: 侯朋;李勇波;孫傲冰;季統凱;張恒 申請(專利權)人: 國云科技股份有限公司
主分類號: G06F17/30 分類號: G06F17/30;G06F17/27
代理公司: 廣東莞信律師事務所44332 代理人: 余倫
地址: 523808 廣東省東*** 國省代碼: 廣東;44
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 新聞 實時 推薦 系統 及其 方法
【說明書】:

技術領域

發明涉及大數據技術領域,尤其是一種新聞實時推薦系統及其方法。

背景技術

隨著互聯網信息技術的發展,用戶逐漸從信息匱乏的時代走入了信息過載的時代。用戶在面對數目龐大的新聞量時往往會感到力不從心,只能通過搜索引擎自行搜索海量的新聞信息。但是由于搜索引擎的通用性,已不能滿足用戶的個性查詢。因此人民希望新聞能夠更加智能化,根據自己的喜好推薦自己需要的信息。

發明內容

本發明解決的技術問題在于提供一種新聞實時推薦系統及其方法;對互聯網新聞門戶進行數據采集,對所有新聞數據進行分析與主題抽取,有效解決系統初始化無歷史數據時的冷啟動問題。

本發明解決上述技術問題的技術方案是:

所述的系統包括數據采集層、數據處理層、實時推薦層;

所述的采集層通過網絡爬蟲在網絡中抓取新聞數據,并過濾重復數據,構建新聞數據庫;將抓取的新聞數據存儲到Hbase數據庫中,為后面高效的處理與分析數據提供數據源;

所述的數據處理層是一個能夠實時計算的流處理架構;該架構把推薦系統分成離線計算和在線計算兩部分,利用離線推薦算法結合在線處理,提高推薦系統實時計算的能力;所述的在線處理采用Spark實現;

所述的推薦層基于MLlib對推薦引擎模塊進行設計,包含模型的訓練、模型的測試和新聞的推薦。

所述系統的實現方法,其特征在于:所述的采集層通過網絡爬蟲在網絡中抓取新聞數據,并過濾重復數據,構建新聞數據庫,包括如下步驟:

第一步,獲取待采集的URL;

第二步,通過數據路由器對URL進行過濾;

第三步,抓取頁面數據;

第四步,對抓取的數據進行文本抽取,鏈接抽取,把抽取的鏈接加入待采集URL集合;

第五步,自動文本特征提取,生成網頁指紋;

第六步,檢測是否為有相同文章;

第七步,如果已有相同文章則放棄抓取返回第一步,否則對正文文本進行分詞操作;

第八步,用TF_IDF算法提取N個關鍵詞;

第九步,找到與其重合度最高的m篇文章;

第十步,若其重合度大于c則歸為相應主題數據庫;

第十一步,建立倒排索引以供其他模塊使用;

所述的數據處理層按照如下步驟處理數據:

第一步,對用戶-新聞數據進行采集,進行實時推薦需要兩部分數據集:一是初始離線的數據集,二是當前一段時間內實時產生的數據集;

第二步,實時流計算,源源不斷的數據流經過系統時,連續地計算;系統實時的接收用戶點擊信息,然后進行模型訓練,最后將數據動態地傳送到數據庫HBase中;

所述的推薦層按照如下步驟運行:

第一步,分別加載新聞數據集與用戶點擊數據集;

第二步,對數據集進行分解;

第三部,設置模型參數;

第四步,訓練推薦模型;

第五步,通過推薦模型對新聞進行預測評分;

第六步,計算RSME;

第七步,選擇RSME最小值,得出最優推薦模型;

第八步,使用最優模型對用戶推薦新聞,并保存在數據庫中。

所述的對用戶-新聞數據進行采集中對未被點擊過的新聞進行初始化包括如下步驟:

第一步,采用正則表達式去除文本中html標簽;

第二步,采用最大路徑算法對標簽后的文本進行分詞;

第三步,分詞后進行實體抽取;

第四步,對抽取的關鍵詞進行排名;

第五步,形成關鍵詞向量,對文檔d其內容形成的關鍵詞向量如下:

di={(e1,w1),(e2,w2),...}其中,ei就是關鍵詞,wi是關鍵詞對應的權重,

第六步,計算文本向量空間相似度,使用倒排索引加速相似度計算;

第七步,對計算結果持久化到數據庫。

所述的對用戶-新聞數據進行采集中對新用戶進行初始化包括如下步驟:

第一步,獲取用戶的注冊信息;

第二步,對用戶特征屬性進行劃分;

第三步,訓練用戶分類器;

第四步,使用分類器對用戶進行分類;

第五步,對用戶分類結果持久化到數據庫。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國云科技股份有限公司,未經國云科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201611138281.2/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 国产精品亚洲第一区| 日韩精品久久久久久久的张开腿让| xxxxx色| 欧美乱妇高清无乱码一级特黄| 国产精品久久免费视频| 91免费国产| 国产三级在线视频一区二区三区| 香港三日本三级三级三级| 香港三日本8a三级少妇三级99 | 狠狠色噜噜狠狠狠四色米奇| 精品无人国产偷自产在线| 久久九精品| 狠狠躁夜夜躁xxxxaaaa| 国产乱了高清露脸对白| 国产欧美日韩中文字幕| 国模精品免费看久久久| 亚洲va国产2019| 91看片片| 国产精品日韩一区二区三区| 精品国产1区2区| 中文字幕一区二区三区乱码 | 香港日本韩国三级少妇在线观看 | 国产精品女人精品久久久天天| 一区二区不卡在线| 国产精品美女一区二区视频| 日韩精品在线一区二区三区| 精品久久久久99| 国产一区二区三区久久久| 久久久精品久久日韩一区综合| 99国产精品九九视频免费看| 一区二区精品在线| 亚洲二区在线播放视频| 欧美在线观看视频一区二区| 91视频一区二区三区| 草逼视频网站| 日本一区二区电影在线观看| 日韩免费一级视频| 日韩无遮挡免费视频| 曰韩av在线| 色一情一交一乱一区二区三区| 538在线一区二区精品国产| 少妇又紧又色又爽又刺激的视频| 岛国精品一区二区| 午夜激情免费电影| 精品国产乱码久久久久久影片| 久久精品国产精品亚洲红杏| 偷拍自中文字av在线| 激情欧美一区二区三区| 国产色婷婷精品综合在线手机播放| 国产精品一区二| 国产视频一区二区在线| 久久久中精品2020中文| 欧美一区二区精品久久| 欧美一区二区三区久久久久久桃花| 久久精品手机视频| 大伊人av| 激情aⅴ欧美一区二区三区| 狠狠色噜噜狠狠狠狠综合久| 国产又黄又硬又湿又黄| 欧美乱大交xxxxx古装| 一区二区在线不卡| 国产精品18久久久久久白浆动漫| 精品久久久久一区二区| 日韩欧美国产精品一区| 国产91视频一区| 中文字幕欧美一区二区三区| 国产精品视频tv| 国产91在线拍偷自揄拍| 91精品视频一区二区| 制服丝袜二区| 午夜毛片在线| 国产一区二区视频免费在线观看 | 亚洲神马久久| 日韩精品免费一区| 日韩av视屏在线观看| 91偷拍网站| 欧美精品第一区| 久久国产激情视频| 国产偷久久一区精品69 | 久久国产精品久久| 亚洲s码欧洲m码在线观看| 69久久夜色精品国产69–|