[發(fā)明專利]熱詞詞組提取方法和系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201710680829.4 | 申請(qǐng)日: | 2017-08-10 |
| 公開(公告)號(hào): | CN107423444B | 公開(公告)日: | 2020-05-19 |
| 發(fā)明(設(shè)計(jì))人: | 曹航瑞;張穎;林志聰;馬幸暉;王家賓;銀超 | 申請(qǐng)(專利權(quán))人: | 世紀(jì)龍信息網(wǎng)絡(luò)有限責(zé)任公司 |
| 主分類號(hào): | G06F16/33 | 分類號(hào): | G06F16/33;G06F16/335 |
| 代理公司: | 廣州華進(jìn)聯(lián)合專利商標(biāo)代理有限公司 44224 | 代理人: | 余永文 |
| 地址: | 510630 廣東省廣州市天河*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 詞組 提取 方法 系統(tǒng) | ||
本發(fā)明涉及一種熱詞詞組提取方法和系統(tǒng),熱詞詞組提取方法包括以下步驟:獲取關(guān)鍵詞的歷史詞頻以及當(dāng)前詞頻;根據(jù)所述歷史詞頻、當(dāng)前詞頻以及關(guān)鍵詞所在當(dāng)前文本的平均熱度權(quán)重計(jì)算當(dāng)前詞頻的詞頻加權(quán)變化率;將所述詞頻加權(quán)變化率達(dá)到第一閾值的關(guān)鍵詞作為熱詞,從所述當(dāng)前文本中提取所述熱詞的相關(guān)詞,得到熱詞集,根據(jù)所述熱詞集獲取頻繁項(xiàng)集;遞歸合并頻繁項(xiàng)集內(nèi)的熱詞,得到熱詞詞組。上述熱詞詞組提取方法和系統(tǒng),通過計(jì)算當(dāng)前詞頻的詞頻加權(quán)變化率獲取熱詞,并獲取對(duì)應(yīng)的頻繁項(xiàng)集,對(duì)頻繁項(xiàng)集進(jìn)行遞歸合并處理,得到最終能夠代表當(dāng)前的熱點(diǎn)事件的熱詞詞組,運(yùn)算簡(jiǎn)便高效,且得到的熱詞詞組能更準(zhǔn)確地描述熱點(diǎn)事件。
技術(shù)領(lǐng)域
本發(fā)明涉及文字處理技術(shù)領(lǐng)域,特別是涉及一種熱詞詞組提取方法和系統(tǒng)。
背景技術(shù)
熱詞作為一種詞匯現(xiàn)象,反映了一個(gè)區(qū)域的人們?cè)谝粋€(gè)時(shí)期內(nèi)普遍關(guān)注的問題和事物。詞匯的多義性及多樣性使得熱詞的提取變得困難,當(dāng)前內(nèi)容提供方通常提取單個(gè)熱詞代表當(dāng)前事件,但僅通過單個(gè)熱詞難以對(duì)一個(gè)熱點(diǎn)事件進(jìn)行準(zhǔn)確描述。由多個(gè)熱詞組成的詞組能更精確地對(duì)熱點(diǎn)事件進(jìn)行描述。
傳統(tǒng)的熱詞詞組的檢測(cè)主要是利用機(jī)器學(xué)習(xí)的方法,包括有監(jiān)督或無監(jiān)督方法(基于決策樹(Decision Tree,DT)的監(jiān)督方法、基于隱馬爾科夫模型(Hidden MarkovModel,HMM)的監(jiān)督方法、基于最大熵模型(Maximum Entropy,ME)等)對(duì)語料進(jìn)行訓(xùn)練提取候選熱詞,最后進(jìn)行詞匯共現(xiàn)矩陣分析,從而獲得熱詞詞組。但這種方法算法復(fù)雜度較高,易產(chǎn)生大量的垃圾串。
發(fā)明內(nèi)容
基于此,有必要針對(duì)算法復(fù)雜度較高,易產(chǎn)生大量的垃圾串的問題,提供一種熱詞詞組提取方法。
一種熱詞詞組提取方法,包括以下步驟:
獲取關(guān)鍵詞的歷史詞頻以及當(dāng)前詞頻;其中歷史詞頻為關(guān)鍵詞在歷史時(shí)間段內(nèi)發(fā)布的文本信息上的詞頻,當(dāng)前詞頻為關(guān)鍵詞在當(dāng)前時(shí)間段內(nèi)發(fā)布的文本信息上的詞頻;
根據(jù)所述歷史詞頻、當(dāng)前詞頻以及關(guān)鍵詞所在當(dāng)前文本的平均熱度權(quán)重計(jì)算當(dāng)前詞頻的詞頻加權(quán)變化率;
將所述詞頻加權(quán)變化率達(dá)到第一閾值的關(guān)鍵詞作為熱詞,從所述當(dāng)前文本中提取所述熱詞的相關(guān)詞,得到熱詞集,根據(jù)所述熱詞集獲取頻繁項(xiàng)集;
遞歸合并頻繁項(xiàng)集內(nèi)的熱詞,得到熱詞詞組。
一種熱詞詞組提取系統(tǒng),包括:
獲取模塊,用于獲取關(guān)鍵詞的歷史詞頻以及當(dāng)前詞頻;其中歷史詞頻為關(guān)鍵詞在歷史時(shí)間段內(nèi)發(fā)布的文本信息上的詞頻,當(dāng)前詞頻為關(guān)鍵詞在當(dāng)前時(shí)間段內(nèi)發(fā)布的文本信息上的詞頻;
計(jì)算模塊,用于根據(jù)所述歷史詞頻、當(dāng)前詞頻以及關(guān)鍵詞所在當(dāng)前文本的平均熱度權(quán)重計(jì)算當(dāng)前詞頻的詞頻加權(quán)變化率;
提取模塊,用于將所述詞頻加權(quán)變化率達(dá)到第一閾值的關(guān)鍵詞作為熱詞,從所述當(dāng)前文本中提取所述熱詞的相關(guān)詞,得到熱詞集,根據(jù)所述熱詞集獲取頻繁項(xiàng)集;
遞歸合并模塊,用于遞歸合并頻繁項(xiàng)集內(nèi)的熱詞,得到熱詞詞組。
上述熱詞詞組提取方法和系統(tǒng),通過計(jì)算當(dāng)前詞頻的詞頻加權(quán)變化率獲取熱詞,并獲取對(duì)應(yīng)的頻繁項(xiàng)集,對(duì)頻繁項(xiàng)集進(jìn)行遞歸合并處理,得到最終能夠代表當(dāng)前的熱點(diǎn)事件的熱詞詞組,運(yùn)算簡(jiǎn)便高效,且得到的熱詞詞組能更準(zhǔn)確地描述熱點(diǎn)事件。
附圖說明
圖1為本發(fā)明的一個(gè)實(shí)施例中熱詞詞組提取方法的步驟流程示意圖;
圖2為本發(fā)明的獲取關(guān)鍵詞的歷史詞頻以及當(dāng)前詞頻的步驟示意圖;
圖3為本發(fā)明的一個(gè)實(shí)施例中熱詞詞組提取方法的完整步驟示意圖;
圖4為本發(fā)明的一個(gè)實(shí)施例中熱詞詞組提取系統(tǒng)的步驟流程示意圖。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于世紀(jì)龍信息網(wǎng)絡(luò)有限責(zé)任公司,未經(jīng)世紀(jì)龍信息網(wǎng)絡(luò)有限責(zé)任公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710680829.4/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





