[發明專利]一種基于海量新聞數據事件熱度的新聞推薦方法有效
| 申請號: | 202011243231.7 | 申請日: | 2020-11-09 |
| 公開(公告)號: | CN112199601B | 公開(公告)日: | 2022-11-08 |
| 發明(設計)人: | 李作康;高菁;張雷;王妍妍;袁林 | 申請(專利權)人: | 中國電子科技集團公司第二十八研究所 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/953;G06F40/216;G06F40/289 |
| 代理公司: | 江蘇圣典律師事務所 32237 | 代理人: | 于瀚文;胡建華 |
| 地址: | 210007 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 海量 新聞 數據 事件 熱度 推薦 方法 | ||
1.一種基于海量新聞數據事件熱度的新聞推薦方法,其特征在于,包括如下步驟:
步驟1,構建事件詞典;
步驟2,建立多詞語新聞篩選機制,篩選過濾新聞數據;
步驟3,建立事件模型,基于事件詞典對新聞進行篩選;
步驟1包括:根據關鍵詞和新聞源參數,通過具有針對性的Solr查詢語句,篩選過濾新聞數據,應用自然語言處理技術對新聞內容進行去停用詞的分詞處理,應用TF-IDF算法統計獲取新聞關鍵詞,TF為詞頻,即詞語新聞中出現的頻率,對其進行歸一化處理,針對第p篇新聞中的第q個詞語A,其詞頻TFqp表示為:
其中nqp為第q個詞語在第p篇新聞中的出現次數,w為單篇新聞中出現的詞語數;
針對第p篇新聞中的第q個詞語A,其逆向文件頻率IDFqp表示為:
其中P為語料庫中的文件總數,即新聞總數,Pqp為包含該詞語A的新聞數量;
詞語A的TF-IDF權重值TF-IDFqp表示為:
TF-IDFqp=TFqp×IDFqp
以詞語的TF-IDF權重值作為詞語分值,去重處理后,形成事件詞典;
步驟2包括:將非結構化新聞內容進行去停用詞的分詞處理,將分詞結果與事件詞典中詞語集合進行匹配,分詞后詞總數為Nw,統計去重后詞個數為n,詞頻為F,分詞結果與事件詞典匹配,從事件詞典中得到詞分值W,新聞分數S計算公式如下:
其中Fj為第j個詞語詞頻數,Wj為第j個詞語分值;
步驟3包括:用當天所有新聞的平均分Savg來衡量每天事件熱度,計算公式如下:
其中m為當天新聞數量,Sk為第k篇新聞分數;
通用衰減模型為:e-kΔT,則第i天的事件熱度Ri計算模型如下:
其中k為衰減系數,第一天事件熱度為第i+1天事件熱度;
根據計算出的事件熱度隨時間變化曲線,獲得熱度值R波峰的時間集合,將在時間集合內的并且經過事件詞典篩選的新聞進行推薦。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國電子科技集團公司第二十八研究所,未經中國電子科技集團公司第二十八研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011243231.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于智能交通錐桶的公路養護區報警系統
- 下一篇:一種懸挑式層板安裝機構
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





