[發明專利]一種網絡詞熱度確定方法和裝置有效
| 申請號: | 201110247837.2 | 申請日: | 2011-08-25 |
| 公開(公告)號: | CN102955804A | 公開(公告)日: | 2013-03-06 |
| 發明(設計)人: | 田冬;張遠;吳淑燕 | 申請(專利權)人: | 中國移動通信集團公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京德琦知識產權代理有限公司 11018 | 代理人: | 謝安昆;宋志強 |
| 地址: | 100032 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網絡 熱度 確定 方法 裝置 | ||
技術領域
本發明涉及互聯網技術,特別涉及一種網絡詞熱度確定方法和裝置。
背景技術
網絡詞熱度確定,對有關部門的調研、決策、管理和服務有著重要的參考價值。現有確定方式主要為:查詢搜索引擎的接口,根據網絡詞的搜索次數和搜索結果量,按照某種方式計算出一個表征網絡詞熱度的參數,搜索次數和搜索結果量均與網絡詞熱度成正比。
但是,這種方式需要依賴于用戶在使用搜索引擎時的輸入行為,因此有一定的主觀性和片面性,不夠準確;而且,搜索結果量僅能體現出網絡詞的出現頻率,無法體現出分布情況等信息,也會導致確定結果不準確,比如,如果一網絡詞只是在某一或某幾個頁面中出現的頻率很高,而在其它頁面中很少出現甚至不出現,那么按照現有方式確定出的該網絡詞的熱度也會較高。
發明內容
有鑒于此,本發明提供了一種網絡詞熱度確定方法和裝置,能夠提高網絡詞熱度確定結果的準確性。
為達到上述目的,本發明的技術方案是這樣實現的:
一種網絡詞熱度確定方法,包括:
接收用戶輸入的網絡詞X,獲取包括所述網絡詞X的頁面的頁面地址和發布時間;
根據獲取到的頁面地址計算所述網絡詞X的地域分布參數,根據獲取到的發布時間計算所述網絡詞X的時間分布參數,根據所述地域分布參數和所述時間分布參數計算所述網絡詞X的熱度值,展示給用戶。
一種網絡詞熱度確定裝置,包括:
應用程序接口API,用于接收用戶通過用戶界面輸入的網絡詞X,獲取包括所述網絡詞X的頁面的頁面地址和發布時間;
熱度計算模塊,用于根據獲取到的頁面地址計算所述網絡詞X的地域分布參數,根據獲取到的發布時間計算所述網絡詞X的時間分布參數,根據所述地域分布參數和所述時間分布參數計算所述網絡詞X的熱度值,通過用戶界面展示給用戶。
可見,采用本發明所述方案,在確定網絡詞熱度時,無需依賴于用戶在使用搜索引擎時的輸入行為,而且,充分考慮了網絡詞的地域分布情況和時間分布情況,從而使得確定結果更為客觀和全面,進而提高了確定結果的準確性。
附圖說明
圖1為本發明方法實施例的流程圖。
圖2為本發明裝置實施例的組成結構示意圖。
具體實施方式
針對現有技術中存在的問題,本發明中提出一種改進后的網絡詞熱度確定方案,能夠提高確定結果的準確性。
為使本發明的技術方案更加清楚、明白,以下參照附圖并舉實施例,對本發明所述方案作進一步地詳細說明。
圖1為本發明方法實施例的流程圖。如圖1所示,包括以下步驟:
步驟11:接收用戶輸入的網絡詞X(用網絡詞X來代表用戶輸入的任一網絡詞),獲取包括網絡詞X的頁面的頁面地址和發布時間。
所述頁面地址即指頁面的統一資源定位符(URL,Uniform?Resource?Locator)。
本發明中,需要建立一個詞庫和一個網頁正文索引庫,其中,詞庫中保存有一系列的網絡詞,初始階段,詞庫中的網絡詞可由人工輸入,網頁正文索引庫中保存有按照某種方式從各網站中抓取到的各頁面的正文內容,以及每篇正文內容的頁面地址和發布時間。如何進行抓取為現有技術,另外,對哪些網站進行抓取以及對網站中的哪些頁面進行抓取均可根據實際需要而定。
之后,利用詞庫中保存的網絡詞對每篇正文內容進行分詞,即如果詞庫中保存的某一網絡詞出現在了某一篇正文內容中,則用特殊符號將該網絡詞在該正文內容中標識出來,如何進行標識不作限制,只要能夠識別即可,并用分詞后的正文內容對應替換掉分詞前的正文內容。
詞庫和網頁正文索引庫中保存的內容均可實時更新,比如,在對正文內容進行分詞后,選取單個字組成的序列,如果某一序列的出現頻率大于預設閾值,則將該序列作為新的網絡詞,補充到詞庫中。
另外,詞庫中可同時保存有每個網絡詞被加入到詞庫中的時間,具體作用后續將會介紹。
當接收到用戶輸入的網絡詞X后,從網頁正文索引庫中查詢出包括網絡詞X的頁面的頁面地址和發布時間。
步驟12:根據獲取到的頁面地址計算網絡詞X的地域分布參數,根據獲取到的發布時間計算網絡詞X的時間分布參數,根據地域分布參數和時間分布參數計算網絡詞X的熱度值,展示給用戶。
本發明中在計算網絡詞X的熱度值時,主要考慮兩個因素,即網絡詞X的地域分布情況和時間分布情況,相應地,可計算出網絡詞X的地域分布參數和時間分布參數,并結合它們對熱度值的貢獻權重,最終計算出熱度值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國移動通信集團公司,未經中國移動通信集團公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110247837.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種遠程管理日程的方法及系統
- 下一篇:網站訪問方法、系統及終端





