[發(fā)明專利]一種熱點(diǎn)新聞挖掘方法、裝置及服務(wù)器有效
| 申請?zhí)枺?/td> | 201711320431.6 | 申請日: | 2017-12-12 |
| 公開(公告)號: | CN108090157B | 公開(公告)日: | 2018-11-06 |
| 發(fā)明(設(shè)計(jì))人: | 潘建 | 申請(專利權(quán))人: | 百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京市鑄成律師事務(wù)所 11313 | 代理人: | 郗名悅;徐瑞紅 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 熱詞 熱度 排序 抓取 聚類處理 聚類結(jié)果 熱點(diǎn)新聞 網(wǎng)絡(luò)爬蟲 聚類 服務(wù)器 發(fā)送 覆蓋面 時(shí)效性 挖掘 網(wǎng)站 抽取 存儲 | ||
本發(fā)明提出一種熱點(diǎn)新聞挖掘方法、裝置及服務(wù)器,所述方法包括:通過網(wǎng)絡(luò)爬蟲程序抓取包含有新聞熱詞的網(wǎng)站,以抽取其中的新聞熱詞并存儲;對所述新聞熱詞進(jìn)行聚類處理,并根據(jù)聚類結(jié)果計(jì)算所述聚類后的新聞熱詞的熱度;根據(jù)所述新聞熱詞的熱度對所述新聞熱詞進(jìn)行排序,將排序后的新聞熱詞對應(yīng)的新聞發(fā)送至用戶。上述技術(shù)方案中的一個(gè)技術(shù)方案具有如下優(yōu)點(diǎn)或有益效果:通過網(wǎng)絡(luò)爬蟲程序抓取包含新聞熱詞,并對新聞熱詞進(jìn)行聚類處理,并根據(jù)聚類結(jié)果計(jì)算所述聚類后的新聞熱詞的熱度,然后將根據(jù)熱度排序后的新聞熱詞對應(yīng)的新聞發(fā)送至用戶,該技術(shù)方案考慮到新聞的時(shí)效性、覆蓋面和準(zhǔn)確性,能夠滿足用戶的需求。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)挖掘技術(shù)領(lǐng)域,尤其涉及一種熱點(diǎn)新聞挖掘方法、裝置及服務(wù)器。
背景技術(shù)
新聞是指最新發(fā)生的,人們未知、欲知、應(yīng)知的事實(shí)的報(bào)道。新點(diǎn)新聞是指互聯(lián)網(wǎng)中的熱門新聞。熱點(diǎn)新聞挖掘是指利用算法技術(shù)識別互聯(lián)網(wǎng)中的熱門新聞,然后分發(fā)給用戶,搶占用戶需求。
熱點(diǎn)新聞的挖掘與提供極大地方便了用戶對新聞信息的獲取。然而,在海量數(shù)據(jù)中,能準(zhǔn)確且全面挖掘當(dāng)前熱點(diǎn)新聞十分困難,傳統(tǒng)方法通常采用人工監(jiān)控互聯(lián)網(wǎng)站上的新聞來判斷熱點(diǎn)新聞,這種方式顯然需要較大人力成本,且時(shí)效性較差,不能及時(shí)為用戶提供熱點(diǎn)新聞,相應(yīng)地,也降低了用戶獲取熱點(diǎn)新聞的效率。還有通過簡單聚類算法技術(shù),利用爬蟲技術(shù)實(shí)時(shí)抓取各個(gè)站點(diǎn)新聞,并通過聚類技術(shù)對新聞做聚類,但由于各個(gè)新聞?wù)军c(diǎn)發(fā)布新聞時(shí)間不同,所以當(dāng)重大新聞出現(xiàn)時(shí),需要較長時(shí)間來識別是否為熱點(diǎn)新聞,因此也降低了效率。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供一種熱點(diǎn)新聞挖掘方法、裝置及服務(wù)器,以至少解決現(xiàn)有技術(shù)中的以上技術(shù)問題。
第一方面,本發(fā)明實(shí)施例提供了一種熱點(diǎn)新聞挖掘方法,所述方法包括:
通過網(wǎng)絡(luò)爬蟲程序抓取包含有新聞熱詞的網(wǎng)站,以抽取其中的新聞熱詞并存儲;
對所述新聞熱詞進(jìn)行聚類處理,并根據(jù)聚類結(jié)果計(jì)算所述聚類后的新聞熱詞的熱度;
根據(jù)所述新聞熱詞的熱度對所述新聞熱詞進(jìn)行排序,將排序后的新聞熱詞對應(yīng)的新聞發(fā)送至用戶。
結(jié)合第一方面,本發(fā)明在第一方面的第一種實(shí)施方式中,對所述新聞熱詞進(jìn)行聚類處理,包括:
對相同網(wǎng)站抓取到的新聞熱詞進(jìn)行去重處理;
計(jì)算去重處理后的所述新聞熱詞之間的相似度,通過相似度對每個(gè)所述新聞熱詞進(jìn)行聚類。
結(jié)合第一方面,本發(fā)明在第一方面的第二實(shí)施方式中,根據(jù)聚類結(jié)果計(jì)算所述聚類后的新聞熱詞的熱度,包括:
獲取對所述新聞熱詞進(jìn)行聚類過程中生成的新聞聚類數(shù);
在預(yù)設(shè)時(shí)間內(nèi)計(jì)算所述新聞熱詞的新聞爆發(fā)度;
通過計(jì)算每一新聞熱詞聚類中,對應(yīng)的新聞的平均發(fā)布時(shí)間和中位數(shù)時(shí)間點(diǎn),對新聞做調(diào)權(quán),以得到新聞聚類時(shí)的時(shí)間因子;
根據(jù)新聞聚類數(shù)、新聞爆發(fā)度和時(shí)間因子計(jì)算出新聞的熱度。
結(jié)合第一方面,本發(fā)明在第一方面的第三實(shí)施方式中,在預(yù)設(shè)時(shí)間內(nèi)計(jì)算所述新聞熱詞的新聞爆發(fā)度,包括:
計(jì)算所述新聞熱詞在第一時(shí)刻的新聞聚類數(shù)和所述新聞熱詞在第二時(shí)刻的新聞聚類數(shù);
比較所述第一時(shí)刻的新聞聚類數(shù)和所述第二時(shí)刻的新聞聚類數(shù);
若所述第二時(shí)刻的新聞聚類數(shù)大于所述第一時(shí)刻的新聞聚類數(shù)超過預(yù)設(shè)閾值,則根據(jù)所述第一時(shí)刻和和所述第二時(shí)刻的新聞聚類數(shù)計(jì)算所述新聞熱詞的新聞爆發(fā)度。
結(jié)合第一方面的第一種實(shí)施方式,通過相似度對每個(gè)所述新聞熱詞進(jìn)行聚類之前,包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司,未經(jīng)百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711320431.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 預(yù)測視頻內(nèi)容熱度的方法和裝置
- 一種熱度迭代計(jì)算方法
- 帖子智能排位方法、裝置以及計(jì)算機(jī)可讀存儲介質(zhì)
- 電視節(jié)目播放方法、裝置、設(shè)備及可讀存儲介質(zhì)
- 一種空調(diào)器的膨脹閥的控制方法及其系統(tǒng)、空調(diào)器
- 一種視頻熱度級別預(yù)測方法及裝置
- 一種分布式存儲系統(tǒng)數(shù)據(jù)熱度統(tǒng)計(jì)方法、裝置
- 一種基于熱度的日志結(jié)構(gòu)文件系統(tǒng)數(shù)據(jù)管理方法
- 熱度排行榜的更新方法、裝置、服務(wù)器及計(jì)算機(jī)存儲介質(zhì)
- 基于深度學(xué)習(xí)的數(shù)據(jù)熱度統(tǒng)計(jì)方法及裝置





