[發明專利]一種搜索引擎熱點詞分析算法有效
| 申請號: | 201410326496.1 | 申請日: | 2014-07-02 |
| 公開(公告)號: | CN104111999B | 公開(公告)日: | 2017-12-12 |
| 發明(設計)人: | 沈曉龍;王崢;李翔;丁飛達 | 申請(專利權)人: | 南京烽火星空通信發展有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 常州佰業騰飛專利代理事務所(普通合伙)32231 | 代理人: | 黃杭飛 |
| 地址: | 210019 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 搜索引擎 熱點 分析 算法 | ||
技術領域
本申請屬于信息技術領域,涉及一種搜索引擎熱點詞分析算法。
背景技術
熱點詞,是指一定時間內被大量互聯網用戶通過搜索引擎搜索過的詞語,相對于非熱點詞,熱點詞有搜索次數高的特點。一般的,通過一系列的方法處理詞語在相鄰的兩個周期內出現的次數,將處理的結果篩選,就可以得到熱點詞。經過處理的結果叫做關鍵詞得分,處理的方法叫做關鍵詞得分算法。
現有的關鍵詞得分算法是將詞語在較近周期中被搜索次數減去詞語在較早周期中被搜索的次數,然后再除以一個基數,基數可以是詞語在較近周期中被搜索的次數,可以是詞語在較早周期中被搜索的次數,也可以是同一詞語在兩個周期被搜索次數的和或者差,等等。下面是一個關鍵詞得分算法的例子:
現有計算關鍵詞得分的算法能夠滿足一些實際應用的要求,能夠在實際應用中起到一部分作用,但容易受到干擾,得到的結果也讓人難以滿意。以上面的關鍵詞得分算法的例子為計算公式,計算后得到如下表格所示的一組數據:
可以發現表格中的數據存在以下一些問題:
A.“年貨”是在較近周期才出現的新詞語,經過現有的算法,由于分母為0,不能得到結果,在依據得分統計時,很有可能會被忽視。
B.“三中全會”的得分是負數,與其他的得分格式不同。
C.“虎牌”的搜索次數要遠小于其他詞語,但是它的得分卻大于“大氣”等詞語。這樣的詞語我們稱為噪聲詞。
顯而易見,現有算法計算出來的結果是不理想的。對于一組詞語數據,經過現有算法計算后,得到的結果存在很多問題,這些問題讓計算結果的可用性大大降低。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京烽火星空通信發展有限公司,未經南京烽火星空通信發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410326496.1/2.html,轉載請聲明來源鉆瓜專利網。





