[發(fā)明專利]數(shù)據(jù)處理方法、裝置、存儲介質(zhì)及設(shè)備在審
| 申請?zhí)枺?/td> | 202010589592.0 | 申請日: | 2020-06-24 |
| 公開(公告)號: | CN113836914A | 公開(公告)日: | 2021-12-24 |
| 發(fā)明(設(shè)計)人: | 王宗晟;楊超;徐振;王寶勛;馮啟航 | 申請(專利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/216 |
| 代理公司: | 北京三高永信知識產(chǎn)權(quán)代理有限責(zé)任公司 11138 | 代理人: | 張所明 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 數(shù)據(jù)處理 方法 裝置 存儲 介質(zhì) 設(shè)備 | ||
本申請公開了一種數(shù)據(jù)處理方法、裝置、存儲介質(zhì)及設(shè)備,屬于互聯(lián)網(wǎng)技術(shù)領(lǐng)域。包括:獲取文本語料集;對文本語料集進(jìn)行熱點(diǎn)詞提取,得到第一熱點(diǎn)詞集合;第一熱點(diǎn)詞集合中包括j個熱點(diǎn)詞;對第一熱點(diǎn)詞集合進(jìn)行詞語采樣處理,得到第二熱點(diǎn)詞集合;第二熱點(diǎn)詞集合中包括k個候選熱點(diǎn)詞;候選熱點(diǎn)詞為具有潛在的熱度上升趨勢的熱點(diǎn)詞;對第二熱點(diǎn)詞集合中的k個候選熱點(diǎn)詞進(jìn)行熱度預(yù)測;該熱度預(yù)測的時間范圍為第一時間段,第一時間段在時序上位于當(dāng)前日期之后。本申請能夠發(fā)現(xiàn)候選熱點(diǎn)詞以及預(yù)測候選熱點(diǎn)詞在未來時間內(nèi)的熱度趨勢,不但豐富了數(shù)據(jù)處理方式,而且能夠為諸如產(chǎn)品未來開發(fā)、運(yùn)營和設(shè)計等環(huán)節(jié)提供前瞻性建議,效果較佳。
技術(shù)領(lǐng)域
本申請涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,特別涉及一種數(shù)據(jù)處理方法、裝置、存儲介 質(zhì)及設(shè)備。
背景技術(shù)
熱點(diǎn)(hot spot)一般是指廣受大眾關(guān)注或歡迎的新聞/資訊,或某段時期內(nèi) 引人注目的事件或問題。比如,社會熱點(diǎn)和輿論熱點(diǎn)等。時下隨著互聯(lián)網(wǎng)技術(shù) 的飛速發(fā)展,社交平臺上涌現(xiàn)出了海量的UGC(User Generated Content,用戶 生成內(nèi)容)文本數(shù)據(jù)。其中,UGC文本數(shù)據(jù)也被稱之為用戶原創(chuàng)內(nèi)容,即在互 聯(lián)環(huán)境下用戶可以將原創(chuàng)的內(nèi)容通過互聯(lián)網(wǎng)平臺進(jìn)行展示或提供給其他用戶。
其中,合理地應(yīng)用社交平臺上存儲的UGC文本數(shù)據(jù),可以為諸如產(chǎn)品運(yùn)營、 輿論監(jiān)控乃至新產(chǎn)品規(guī)劃等提供有效助力。示例性地,可以通過對UGC文本數(shù) 據(jù)進(jìn)行處理實(shí)現(xiàn)熱點(diǎn)發(fā)現(xiàn)功能。然而,目前的處理方案通常僅是給出當(dāng)前的熱 點(diǎn)詞,換言之,相關(guān)技術(shù)僅用于發(fā)現(xiàn)當(dāng)前熱點(diǎn),數(shù)據(jù)處理方式比較單一。
發(fā)明內(nèi)容
本申請實(shí)施例提供了一種數(shù)據(jù)處理方法、裝置、存儲介質(zhì)及設(shè)備,能夠發(fā) 現(xiàn)候選熱點(diǎn)詞以及預(yù)測候選熱點(diǎn)詞在未來時間內(nèi)的熱度趨勢;其中,候選熱點(diǎn) 詞指代在未來時間內(nèi)具有潛在的熱度上升趨勢的熱點(diǎn)詞。該技術(shù)方案的實(shí)施不 但豐富了數(shù)據(jù)處理方式,而且能夠為諸如產(chǎn)品未來開發(fā)、運(yùn)營和設(shè)計等環(huán)節(jié)提 供前瞻性建議,效果較佳。所述技術(shù)方案如下:
一方面,提供了一種數(shù)據(jù)處理方法,所述方法包括:
獲取文本語料集;對所述文本語料集進(jìn)行熱點(diǎn)詞提取,得到第一熱點(diǎn)詞集 合;其中,所述第一熱點(diǎn)詞集合中包括j個熱點(diǎn)詞,j為正整數(shù);
對所述第一熱點(diǎn)詞集合進(jìn)行詞語采樣處理,得到第二熱點(diǎn)詞集合;其中, 所述第二熱點(diǎn)詞集合中包括k個候選熱點(diǎn)詞,k為正整數(shù)且k小于j;所述候選 熱點(diǎn)詞為具有潛在的熱度上升趨勢的熱點(diǎn)詞;
對所述第二熱點(diǎn)詞集合中的k個候選熱點(diǎn)詞進(jìn)行熱度預(yù)測;其中,所述熱 度預(yù)測的時間范圍為第一時間段,所述第一時間段在時序上位于當(dāng)前日期之后。
另一方面,提供了一種數(shù)據(jù)處理裝置,所述裝置包括:
提取模塊,被配置為獲取文本語料集;對所述文本語料集進(jìn)行熱點(diǎn)詞提取, 得到第一熱點(diǎn)詞集合;其中,所述第一熱點(diǎn)詞集合中包括j個熱點(diǎn)詞,j為正整 數(shù);
采樣模塊,被配置為對所述第一熱點(diǎn)詞集合進(jìn)行詞語采樣處理,得到第二 熱點(diǎn)詞集合;其中,所述第二熱點(diǎn)詞集合中包括k個候選熱點(diǎn)詞,k為正整數(shù)且 k小于j;所述候選熱點(diǎn)詞為具有潛在的熱度上升趨勢的熱點(diǎn)詞;
預(yù)測模塊,被配置為對所述第二熱點(diǎn)詞集合中的k個候選熱點(diǎn)詞進(jìn)行熱度 預(yù)測;其中,所述熱度預(yù)測的時間范圍為第一時間段,所述第一時間段在時序 上位于當(dāng)前日期之后。
在一種可能的實(shí)現(xiàn)方式中,所述裝置還包括:
顯示模塊,被配置為獲取第i個候選熱點(diǎn)詞在所述第一時間段內(nèi)的熱度預(yù)測 數(shù)據(jù);其中,i為正整數(shù)且i小于k;獲取所述第i個候選熱點(diǎn)詞在第二時間段內(nèi) 的歷史熱度數(shù)據(jù);其中,所述第二時間段在時序上位于當(dāng)前日期之前;基于所 述第i個候選熱點(diǎn)詞的熱度預(yù)測數(shù)據(jù)和歷史熱度數(shù)據(jù),顯示所述第i個候選熱點(diǎn) 詞的熱度趨勢圖。
在一種可能的實(shí)現(xiàn)方式中,所述采樣模塊,包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010589592.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種椎板咬骨鉗
- 下一篇:防窺顯示方法、防窺顯示裝置以及存儲介質(zhì)
- 數(shù)據(jù)處理設(shè)備,數(shù)據(jù)處理方法,和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理電路、數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法、數(shù)據(jù)處理控制方法
- 數(shù)據(jù)處理設(shè)備、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及計算機(jī)可讀取的記錄介質(zhì)
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序





