日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種新聞實時推薦系統及其方法在審

專利信息
申請號: 201611138281.2 申請日: 2016-12-12
公開(公告)號: CN106599174A 公開(公告)日: 2017-04-26
發明(設計)人: 侯朋;李勇波;孫傲冰;季統凱;張恒 申請(專利權)人: 國云科技股份有限公司
主分類號: G06F17/30 分類號: G06F17/30;G06F17/27
代理公司: 廣東莞信律師事務所44332 代理人: 余倫
地址: 523808 廣東省東*** 國省代碼: 廣東;44
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 新聞 實時 推薦 系統 及其 方法
【權利要求書】:

1.一種新聞實時推薦系統,其特征在于:所述的系統包括數據采集層、數據處理層、實時推薦層;

所述的采集層通過網絡爬蟲在網絡中抓取新聞數據,并過濾重復數據,構建新聞數據庫;將抓取的新聞數據存儲到Hbase數據庫中,為后面高效的處理與分析數據提供數據源;

所述的數據處理層是一個能夠實時計算的流處理架構;該架構把推薦系統分成離線計算和在線計算兩部分,利用離線推薦算法結合在線處理,提高推薦系統實時計算的能力;所述的在線處理采用Spark實現;

所述的推薦層基于MLlib對推薦引擎模塊進行設計,包含模型的訓練、模型的測試和新聞的推薦。

2.一種權利要求1所述系統的實現方法,其特征在于:所述的采集層通過網絡爬蟲在網絡中抓取新聞數據,并過濾重復數據,構建新聞數據庫,包括如下步驟:

第一步,獲取待采集的URL;

第二步,通過數據路由器對URL進行過濾;

第三步,抓取頁面數據;

第四步,對抓取的數據進行文本抽取,鏈接抽取,把抽取的鏈接加入待采集URL集合;

第五步,自動文本特征提取,生成網頁指紋;

第六步,檢測是否為有相同文章;

第七步,如果已有相同文章則放棄抓取返回第一步,否則對正文文本進行分詞操作;

第八步,用TF_IDF算法提取N個關鍵詞;

第九步,找到與其重合度最高的m篇文章;

第十步,若其重合度大于c則歸為相應主題數據庫;

第十一步,建立倒排索引以供其他模塊使用;

所述的數據處理層按照如下步驟處理數據:

第一步,對用戶-新聞數據進行采集,進行實時推薦需要兩部分數據集:一是初始離線的數據集,二是當前一段時間內實時產生的數據集;

第二步,實時流計算,源源不斷的數據流經過系統時,連續地計算;系統實時的接收用戶點擊信息,然后進行模型訓練,最后將數據動態地傳送到數據庫HBase中;

所述的推薦層按照如下步驟運行:

第一步,分別加載新聞數據集與用戶點擊數據集;

第二步,對數據集進行分解;

第三部,設置模型參數;

第四步,訓練推薦模型;

第五步,通過推薦模型對新聞進行預測評分;

第六步,計算RSME;

第七步,選擇RSME最小值,得出最優推薦模型;

第八步,使用最優模型對用戶推薦新聞,并保存在數據庫中。

3.根據權利要求2所述的方法,其特征在于:所述的對用戶-新聞數據進行采集中對未被點擊過的新聞進行初始化包括如下步驟:

第一步,采用正則表達式去除文本中html標簽;

第二步,采用最大路徑算法對標簽后的文本進行分詞;

第三步,分詞后進行實體抽取;

第四步,對抽取的關鍵詞進行排名;

第五步,形成關鍵詞向量,對文檔d其內容形成的關鍵詞向量如下:

di={(e1,w1),(e2,w2),...}其中,ei就是關鍵詞,wi是關鍵詞對應的權重,

第六步,計算文本向量空間相似度,使用倒排索引加速相似度計算;

第七步,對計算結果持久化到數據庫。

4.根據權利要求2所述的方法,其特征在于:所述的對用戶-新聞數據進行采集中對新用戶進行初始化包括如下步驟:

第一步,獲取用戶的注冊信息;

第二步,對用戶特征屬性進行劃分;

第三步,訓練用戶分類器;

第四步,使用分類器對用戶進行分類;

第五步,對用戶分類結果持久化到數據庫。

5.根據權利要求3所述的方法,其特征在于:所述的對用戶-新聞數據進行采集中對新用戶進行初始化包括如下步驟:

第一步,獲取用戶的注冊信息;

第二步,對用戶特征屬性進行劃分;

第三步,訓練用戶分類器;

第四步,使用分類器對用戶進行分類;

第五步,對用戶分類結果持久化到數據庫。

6.根據權利要求2至5任一項所述的方法,其特征在于:所述的設置模型參數包括設置numHi,numIt,lambda等參數,numHi是模型中隱語義因子的個數,numIt是迭代的次數,lambda是正則化參數;

其中,xobj,i為觀測值,Xmodel,i為真值。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國云科技股份有限公司,未經國云科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201611138281.2/1.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 日韩精品一二区| 国产精华一区二区精华| 久久精品爱爱视频| 国产精品一区二区免费视频| 91久久国产视频| 亚洲国产99| 国产在线拍偷自揄拍视频| 欧美激情午夜| 一区二区免费在线观看| 国产69久久久欧美一级 | 午夜情所理论片| 精品国产一区二区三| 日韩精品中文字幕一区二区| 国产亚洲精品久久久久秋霞| 国产精品区一区二区三| 免费看片一区二区三区| 国内自拍偷拍一区| 午夜国产一区| 99精品偷拍视频一区二区三区| 久久国产激情视频| 清纯唯美经典一区二区| 欧美精品亚洲一区| 性国产videofree极品| 精品国产九九| 日韩av在线播放观看| 国产目拍亚洲精品区一区| 91精品国产91热久久久做人人 | 久久精品国产精品亚洲红杏| 久久99国产精品视频| 欧美一区二区综合| 国产精品一区在线播放| 欧美日韩一区二区在线播放| 日本高清二区| 欧美一区二区三区免费视频| 狠狠色噜噜狠狠狠狠88| 中文字幕久久精品一区| 久久久久久中文字幕| 欧美精品久久一区| 日韩中文字幕亚洲欧美| 午夜av电影院| 国产男女乱淫视频高清免费| 亚洲精品国产精品国产| 一区二区久久精品66国产精品| 国产乱人激情h在线观看| 日韩一级精品视频在线观看| 天摸夜夜添久久精品亚洲人成 | 男女无遮挡xx00动态图120秒| 国产91久| 公乱妇hd在线播放bd| 欧美日本一二三区| 91精品久| 国产欧美一区二区精品久久| 亚洲精品国产主播一区| 99精品欧美一区二区三区美图| 夜色av网| 亚洲欧美日韩国产综合精品二区 | 国产精品久久久久四虎| 亚洲乱亚洲乱妇50p| 久久国产精品免费视频| 91麻豆精品国产91久久久无限制版| 国产一级片子| 李采潭无删减版大尺度| 国产欧美久久一区二区三区| 少妇久久免费视频| 国产精品一区在线播放| 91热精品| 国产乱码一区二区| 国产色午夜婷婷一区二区三区| 亚洲精欧美一区二区精品| 国产女人和拘做受视频免费| 精品福利一区| 91久久香蕉| 日韩不卡毛片| 国产在线不卡一| 狠狠色噜噜狠狠狠狠88| 国产精品久久久久久久久久久久冷| 久久综合伊人77777麻豆最新章节| 日韩欧美一区二区在线视频| 91麻豆文化传媒在线观看| 国产视频在线一区二区| 国产精品久久亚洲7777| 国内精品国产三级国产99|