[發(fā)明專利]一種關鍵詞提取方法以及提取設備有效
| 申請?zhí)枺?/td> | 201611222992.8 | 申請日: | 2016-12-26 |
| 公開(公告)號: | CN108241611B | 公開(公告)日: | 2021-08-17 |
| 發(fā)明(設計)人: | 賀達;孫德彬 | 申請(專利權)人: | 北京國雙科技有限公司 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06F16/953 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 王寶筠 |
| 地址: | 100080 北京市海淀區(qū)*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 關鍵詞 提取 方法 以及 設備 | ||
本發(fā)明實施例公開了一種關鍵詞提取方法以及提取設備,用于更加準確的反映了真實的熱門信息。本發(fā)明實施例方法包括:獲取第一文本集合中各第一文本的關鍵詞和第二文本集合中各第二文本的關鍵詞,根據(jù)所述各第一文本的關鍵詞得到第一數(shù)據(jù);根據(jù)各第二文本的關鍵詞得到第二數(shù)據(jù),根據(jù)第一數(shù)據(jù)和第二數(shù)據(jù)計算第一關鍵詞集合中各第一關鍵詞的權重系數(shù);基于第一關鍵詞集合,根據(jù)權重系數(shù)確定目標關鍵詞。本發(fā)明實施例還提供了一種提取設備。本發(fā)明實施例能夠更加準確的反映了真實的熱門信息。
技術領域
本發(fā)明涉及互聯(lián)網(wǎng)領域,尤其涉及一種關鍵詞提取方法以及提取設備。
背景技術
網(wǎng)頁關鍵詞的提取是海量數(shù)據(jù)背景下的互聯(lián)網(wǎng)應用中的一個熱點問題。對于不同領域的網(wǎng)站文本內容,由于其數(shù)據(jù)量的巨大,不可能人為地一一去閱讀。因此需要能夠對這些專業(yè)領域的文本內容進行歸納和總結,提取出關鍵信息,方便閱讀者快速的收集核心信息。
目前已存在許多網(wǎng)頁關鍵詞提取方法,這些關鍵詞的著眼點大多為詞語的出現(xiàn)頻率、詞語在全文所處的區(qū)域或詞語本身的語義特征。目前常用的文本關鍵詞提取算法有TF-IDF算法,TextRank算法等,可以針對每一篇文檔提取出關鍵詞。對于行業(yè)領域內的熱門關鍵詞提取,通常用戶的需求是獲取一個時間段內的文本數(shù)據(jù)來進行熱門關鍵詞的提取和分析。
為解決上述問題,現(xiàn)有技術中,通過下述步驟來獲取某個行業(yè)領域內的熱門關鍵詞:
步驟1:利用爬蟲爬取網(wǎng)絡上行業(yè)的網(wǎng)頁數(shù)據(jù);
步驟2:對網(wǎng)頁數(shù)據(jù)進行處理,得到文本信息和文本的發(fā)布時間信息;
步驟3:利用關鍵詞提取算法,如Text Rank或TF-IDF算法等,對文本進行關鍵詞提取;
步驟4:對每篇文本中提取的關鍵詞進行聚合和詞頻統(tǒng)計,得到互不重復的關鍵詞和對應詞頻;
步驟5:將該互不重復的關鍵詞和對應詞頻,按照詞頻降序排序,得到一段時間內某個行業(yè)或業(yè)務領域的熱門關鍵詞。
然而,在特定領域中,現(xiàn)有技術無法根據(jù)行業(yè)信息過濾掉一些在行業(yè)內常見的關鍵詞。例如,在汽車領域,顯然每一篇文本提取出來的關鍵詞都包括汽車,最終導致汽車這個關鍵詞的詞頻很高,成為熱詞,但是在汽車行業(yè)或領域內看來,汽車這個關鍵詞是顯而易見的,意義不大,導致利用現(xiàn)有技術提取出的行業(yè)熱門關鍵詞不能準確反映真實的熱門信息。
發(fā)明內容
本發(fā)明實施例提供了一種關鍵詞提取方法以及提取設備,用于更加準確的反映了真實的熱門信息。
本發(fā)明實施例一方面提供了一種關鍵詞提取方法,具體包括:
提取設備獲取第一文本集合中各第一文本的關鍵詞和第二文本集合中各第二文本的關鍵詞,所述第一文本為發(fā)布時間在選定時間段內的文本,所述第二文本為發(fā)布時間在選定歷史時間段內的文本,所述選定時間段晚于所述選定歷史時間段;
所述提取設備根據(jù)所述各第一文本的關鍵詞得到第一數(shù)據(jù),所述第一數(shù)據(jù)包括第一關鍵詞集合和各第一關鍵詞對應的詞頻;
所述提取設備根據(jù)所述各第二文本的關鍵詞得到第二數(shù)據(jù),所述第二數(shù)據(jù)包括第二關鍵詞集合和各第二關鍵詞對應的詞頻,所述第二關鍵詞集合包括所述第一關鍵詞集合的子集或全集;
所述提取設備根據(jù)所述第一數(shù)據(jù)和所述第二數(shù)據(jù)計算所述第一關鍵詞集合中各第一關鍵詞的權重系數(shù);
基于所述第一關鍵詞集合,所述提取設備根據(jù)所述權重系數(shù)確定目標關鍵詞。
本發(fā)明實施例另一方面提供了一種提取設備,具體包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京國雙科技有限公司,未經北京國雙科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611222992.8/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





