[發(fā)明專利]一種基于海量新聞數(shù)據(jù)事件熱度的新聞推薦方法有效
| 申請(qǐng)?zhí)枺?/td> | 202011243231.7 | 申請(qǐng)日: | 2020-11-09 |
| 公開(kāi)(公告)號(hào): | CN112199601B | 公開(kāi)(公告)日: | 2022-11-08 |
| 發(fā)明(設(shè)計(jì))人: | 李作康;高菁;張雷;王妍妍;袁林 | 申請(qǐng)(專利權(quán))人: | 中國(guó)電子科技集團(tuán)公司第二十八研究所 |
| 主分類號(hào): | G06F16/9535 | 分類號(hào): | G06F16/9535;G06F16/953;G06F40/216;G06F40/289 |
| 代理公司: | 江蘇圣典律師事務(wù)所 32237 | 代理人: | 于瀚文;胡建華 |
| 地址: | 210007 *** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 海量 新聞 數(shù)據(jù) 事件 熱度 推薦 方法 | ||
本發(fā)明提供了一種基于海量新聞數(shù)據(jù)事件熱度的新聞推薦方法,首先利用Solr搜索引擎,從海量新聞文本數(shù)據(jù)中快速搜索出具體事件的新聞數(shù)據(jù);接著利用HanLP自然語(yǔ)言包對(duì)新聞進(jìn)行分詞,通過(guò)構(gòu)建事件詞典,并將分詞結(jié)果與詞典進(jìn)行匹配,根據(jù)新聞匹配程度篩選新聞;考慮事件的累加效應(yīng)和新聞的衰減特性,進(jìn)一步建立衡量事件熱度的計(jì)算模型,從而分析事件的熱度趨勢(shì)變化情況,根據(jù)事件熱度情況推薦新聞。本方法實(shí)現(xiàn)了通過(guò)構(gòu)建事件詞典,從海量新聞數(shù)據(jù)中篩選事件新聞,利用非結(jié)構(gòu)化的新聞媒體數(shù)據(jù),感知事件輿論熱度演變趨勢(shì),根據(jù)事件熱度推薦熱點(diǎn)新聞。
技術(shù)領(lǐng)域
本發(fā)明涉及一種基于海量新聞數(shù)據(jù)事件熱度的新聞推薦方法。
背景技術(shù)
在互聯(lián)網(wǎng)高速發(fā)展的新時(shí)代,網(wǎng)絡(luò)化讓人與人更容易連接,網(wǎng)絡(luò)信息傳播內(nèi)容豐富,網(wǎng)絡(luò)輿論走向多元化,新聞作為主流輿論媒介,其傳播力、導(dǎo)向力、影響力、公信力在反映社會(huì)客觀事實(shí)、通達(dá)社情民意、引導(dǎo)社會(huì)熱點(diǎn)、疏導(dǎo)公眾情緒的方面發(fā)揮著重要作用。新聞數(shù)據(jù)量正在急速膨脹,如何從海量新聞中準(zhǔn)確快速挖掘事件信息成為研究難點(diǎn)和熱點(diǎn),馬旭等人提出一種基于大數(shù)據(jù)技術(shù)的新聞采集和事件分析系統(tǒng),陳思雯等人研究了面向網(wǎng)絡(luò)新聞的爬蟲開(kāi)發(fā)與熱點(diǎn)新聞事件分析,張倫等人提出一種基于文本挖掘的公共事件分析方法?;谛侣劦氖录治龇椒ū粡V泛應(yīng)用,黃詒蓉研究分析了金融研究中的新聞分析框架及應(yīng)用,方樹欣研究了地方政府利用新媒體進(jìn)行公共輿論引導(dǎo)的策略,樊紅等人開(kāi)展了基于事件分析的Web地震新聞時(shí)空信息挖掘研究。實(shí)體信息抽取算法是進(jìn)行新聞文本的事件信息和觀點(diǎn)提取研究的關(guān)鍵技術(shù),公冶小燕等人提出基于改進(jìn)的TF-IDF算法及共現(xiàn)詞的主題詞抽取算法,龍光宇等人提出 CRF與詞典相結(jié)合的疾病命名實(shí)體識(shí)別方法,鄒綱等人開(kāi)展了面向Internet的中文新詞語(yǔ)檢測(cè)研究,李娟等人開(kāi)展了基于新詞的新聞命名實(shí)體識(shí)別研究。自然語(yǔ)言處理技術(shù)不斷進(jìn)步,對(duì)于新聞文本的實(shí)體識(shí)別能力不斷提高,但大多為針對(duì)單篇文本的處理研究,從海量新聞中感知事件的研究不夠成熟。此外,目前通用的全球事件數(shù)據(jù)為谷歌維護(hù)的GDELT數(shù)據(jù),事件的類型是固定不可調(diào)整,因此,在進(jìn)行事件分析研究時(shí),需要一種針對(duì)海量中文新聞文本數(shù)據(jù),能夠靈活自主確定事件類型和事件性質(zhì)的事件熱度感知方法,并自動(dòng)推薦熱點(diǎn)新聞。
發(fā)明內(nèi)容
發(fā)明目的:本發(fā)明所要解決的技術(shù)問(wèn)題是針對(duì)現(xiàn)有技術(shù)的不足,提供一種基于海量新聞數(shù)據(jù)事件熱度的新聞推薦方法,應(yīng)用自然語(yǔ)言處理技術(shù),實(shí)現(xiàn)了基于構(gòu)建事件詞典建立多詞語(yǔ)新聞篩選機(jī)制,考慮率事件衰減,建立事件熱度評(píng)估模型,從海量非結(jié)構(gòu)化新聞數(shù)據(jù)中感知事件輿論熱度趨勢(shì),自動(dòng)推薦熱點(diǎn)新聞。
實(shí)現(xiàn)本發(fā)明目的的具體技術(shù)解決方案為:利用Solr搜索引擎支撐海量新聞文本數(shù)據(jù),實(shí)現(xiàn)新聞存儲(chǔ)和快速查詢;利用NLP技術(shù)對(duì)檢索過(guò)濾的新聞進(jìn)行分詞和詞性分析處理,基于構(gòu)建事件詞典建立多詞語(yǔ)新聞篩選機(jī)制,考慮事件的累加效應(yīng)和新聞的衰減特性建立事件熱度模型,進(jìn)而實(shí)現(xiàn)對(duì)事件熱度變化的感知分析,進(jìn)而自動(dòng)推薦熱點(diǎn)新聞,具體步驟為:
步驟1,構(gòu)建事件詞典;
步驟2,建立多詞語(yǔ)新聞篩選機(jī)制,篩選過(guò)濾新聞數(shù)據(jù);
步驟3,建立事件模型,基于事件詞典對(duì)新聞進(jìn)行篩選。
步驟1包括:根據(jù)關(guān)鍵詞和新聞源參數(shù),通過(guò)具有針對(duì)性的Solr查詢語(yǔ)句,篩選過(guò)濾新聞數(shù)據(jù),應(yīng)用自然語(yǔ)言處理技術(shù)對(duì)新聞內(nèi)容進(jìn)行去停用詞的分詞處理,應(yīng)用 TF-IDF算法統(tǒng)計(jì)獲取新聞關(guān)鍵詞,TF為詞頻,即詞語(yǔ)新聞中出現(xiàn)的頻率,為以防止新聞篇幅影響,對(duì)其進(jìn)行歸一化處理,IDF為逆向文件頻率,是一個(gè)詞語(yǔ)普遍重要性的度量。
針對(duì)第p篇新聞中的第q個(gè)詞語(yǔ)A,其詞頻TFqp表示為:
其中nqp為第q個(gè)詞語(yǔ)在第p篇新聞中的出現(xiàn)次數(shù),w為單篇新聞中出現(xiàn)的詞語(yǔ)數(shù)。
針對(duì)第p篇新聞中的第q個(gè)詞語(yǔ)A,其逆向文件頻率IDFqp表示為:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)電子科技集團(tuán)公司第二十八研究所,未經(jīng)中國(guó)電子科技集團(tuán)公司第二十八研究所許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011243231.7/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種數(shù)據(jù)庫(kù)海量數(shù)據(jù)比對(duì)的方法
- 基于云計(jì)算的海量數(shù)據(jù)訪問(wèn)處理系統(tǒng)
- 一種實(shí)現(xiàn)海量數(shù)據(jù)離線分析的方法
- 一種海量矢量切片數(shù)據(jù)云存儲(chǔ)方法及系統(tǒng)
- 一種多源海量數(shù)據(jù)處理系統(tǒng)及方法
- 快速實(shí)現(xiàn)海量數(shù)據(jù)準(zhǔn)實(shí)時(shí)全量統(tǒng)計(jì)的方法、裝置及系統(tǒng)
- 一種海量數(shù)據(jù)分析系統(tǒng)及方法
- 在線繪制地圖海量線的方法
- 一種海量點(diǎn)數(shù)據(jù)聚合渲染方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種海量不確定XML數(shù)據(jù)存儲(chǔ)方法
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





