[發明專利]一種熱搜詞獲取方法及系統在審
| 申請號: | 201610179206.4 | 申請日: | 2016-03-25 |
| 公開(公告)號: | CN107229654A | 公開(公告)日: | 2017-10-03 |
| 發明(設計)人: | 蔡慧慧;劉克松;王博;張丹;于曉明;楊建武 | 申請(專利權)人: | 北大方正集團有限公司;北京北大方正電子有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京路浩知識產權代理有限公司11002 | 代理人: | 李相雨 |
| 地址: | 100871 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 熱搜詞 獲取 方法 系統 | ||
技術領域
本發明涉及,具體涉及一種熱搜詞獲取方法及系統。
背景技術
隨著互聯網的迅猛發展,每天存在超過40億次的搜索請求,搜索引擎已成為人們主動獲取所需信息的主要通道,越來越多的人們愿意通過搜索來表達個人對輿情事件的關注點和興趣點。搜索詞的海量數據代表了中國網民最真實、最客觀的精神需求和信息尋求的行為特征,搜索量的高低則反映了民眾對該關鍵詞所代表的事件的關注程度。網民的搜索各不相同,其中,不乏含有敏感信息,因而通過搜索詞的檢測可以知曉網民的關注點的同時找出對社會公共安全存在潛在威脅的因素,為正確引導搜索導向提供重要支持。
目前關于熱搜詞的檢測大都從詞頻和增長率上來分析,還沒有體現輿情相關度,不可避免會將大量誤搜、不具有實際含義的搜索詞排在前面,對實際分析搜索詞的熱度存在一定的干擾,導致熱搜詞的準確性較低。
發明內容
針對現有技術中的缺陷,本發明提供了一種熱搜詞獲取方法及系統,具有熱搜詞準確性高的優點。
本發明提出了一種熱搜詞獲取方法,包括:
獲取預設時間段內搜索詞的第一詞頻數據和熱詞的第二詞頻數據;
根據所述第一詞頻數據獲取搜索詞的輿情相關度,根據所述第二詞頻數據獲取與所述搜索詞對應的熱詞的輿情相關度;
根據搜索詞的輿情相關度和所述與搜索詞對應的熱詞的輿情相 關度從搜索詞中獲取熱搜詞。
可選的,所述獲取預設時間段內搜索詞的第一詞頻數據和熱詞的第二詞頻數據的步驟具體包括:
根據數據庫中存有的預設時間段內非停用詞、預設詞性的搜索詞的出現頻數獲取第一詞頻數據;
根據數據庫中存有的預設時間段內實體詞的出現頻數獲取第二詞頻數據。
可選的,在根據所述第一詞頻數據獲取搜索詞的輿情相關度的步驟之前,該方法還包括:
根據所述第一詞頻數據從搜索詞中篩選出詞頻大于預設閾值的搜索詞;
相應地,所述根據所述第一詞頻數據獲取搜索詞的輿情相關度,根據所述第二詞頻數據獲取與所述搜索詞對應的熱詞的輿情相關度的步驟具體包括:
根據所述第一詞頻數據中搜索詞的出現頻數,獲取搜索詞的第一輿情相關度;
根據所述第二詞頻數據中與搜索詞對應的熱詞的出現頻數,獲取搜索詞的第二輿情相關度。
可選的,在根據所述第一詞頻數據獲取搜索詞的輿情相關度的步驟之前,該方法還包括:
檢測搜索詞中是否存在多個子搜索詞,若是,則對搜索詞進行分詞預處理,獲取多個子搜索詞;
相應地,所述根據所述第一詞頻數據獲取搜索詞的輿情相關度,根據所述第二詞頻數據獲取與所述搜索詞對應的熱詞的輿情相關度的步驟具體包括:
根據所述第一詞頻數據中搜索詞的出現頻數,獲取搜索詞的第一輿情相關度;
根據所述第二詞頻數據中與各子搜索詞對應的熱詞的出現頻數,獲取搜索詞的第二輿情相關度。
可選的,在所述根據搜索詞的輿情相關度和所述與搜索詞對應的熱詞的輿情相關度獲取熱搜詞的步驟之后,該方法還包括:
對獲取到的熱搜詞進行詞聚類處理獲取多類熱搜詞,并從每一類熱搜詞中篩選出代表詞。
本發明還提出了一種熱搜詞獲取系統,包括:
第一獲取模塊,用于獲取預設時間段內搜索詞的第一詞頻數據和熱詞的第二詞頻數據;
第二獲取模塊,用于根據所述第一詞頻數據獲取搜索詞的輿情相關度,根據所述第二詞頻數據獲取與所述搜索詞對應的熱詞的輿情相關度;
第三獲取模塊,用于根據搜索詞的輿情相關度和所述與搜索詞對應的熱詞的輿情相關度從搜索詞中獲取熱搜詞。
可選的,所述第一獲取模塊,具體用于根據數據庫中存有的預設時間段內非停用詞、預設詞性的搜索詞的出現頻數獲取第一詞頻數據;根據數據庫中存有的預設時間段內實體詞的出現頻數獲取第二詞頻數據。
可選的,該系統還包括:第一篩選模塊;
所述第一篩選模塊,用于在根據所述第一詞頻數據獲取搜索詞的輿情相關度之前,根據所述第一詞頻數據從搜索詞中篩選出詞頻大于預設閾值的搜索詞;
相應地,所述第二獲取模塊,還用于根據所述第一詞頻數據中搜索詞的出現頻數,獲取搜索詞的第一輿情相關度;根據所述第二詞頻數據中與搜索詞對應的熱詞的出現頻數,獲取搜索詞的第二輿情相關度。
可選的,該系統還包括:檢測模塊;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北大方正集團有限公司;北京北大方正電子有限公司,未經北大方正集團有限公司;北京北大方正電子有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610179206.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:偽靜態網頁生成方法和裝置
- 下一篇:頁面靜態文件的更新方法、裝置及系統





