[發明專利]一種對互聯網信息進行異常狀態監測的方法無效
| 申請號: | 200710098645.3 | 申請日: | 2007-04-24 |
| 公開(公告)號: | CN101296128A | 公開(公告)日: | 2008-10-29 |
| 發明(設計)人: | 梁循;陳華;楊健 | 申請(專利權)人: | 北京大學 |
| 主分類號: | H04L12/26 | 分類號: | H04L12/26;G06F17/30;G06F17/22;G06F17/00;G06F11/00 |
| 代理公司: | 北京君尚知識產權代理事務所 | 代理人: | 余功勛 |
| 地址: | 100871*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 互聯網 信息 進行 異常 狀態 監測 方法 | ||
技術領域
本發明屬于互聯網信息挖掘技術領域,具體涉及的是對互聯網信息進行異常程度的跟蹤和監測的方法。
背景技術
隨著網絡日益成為人們發布信息、溝通信息的主要媒體,網絡上的信息也越來越能反映人們關注的焦點和社會熱點事件了。因此,通過監控網絡信息中所反映的熱點問題和熱點事件就成為一個自然的需求了。不論是普通用戶還是行業專家都希望有一個自動化的工具或者方法幫助他們實時地跟蹤他們所關注的領域的最新熱點話題或者新聞,以便了解該領域的最新進展。
不難發現,在一般情況下,互聯網信息中某個關鍵詞大量集中出現往往意味著某個熱點新聞或者熱點事件的發生,而當發生了被廣泛關注的新聞或事件時,又會在網絡上集中出現大量的帶有相關關鍵詞的文本。因此,互聯網文本中熱點關鍵詞的數量的較大變化常常反映了社會熱點新聞或事件的出現或降溫,而網絡上反映熱點新聞或事件的文本又會進一步推動廣大網民對于相關新聞和事件的關注程度和看法。也就是說,異常高的關鍵詞詞頻和顯著的熱點新聞和事件有一定的耦合關系。所以,在本發明中,避開對詞頻小的變化問題的預測,只關心異常高的詞頻變化量。本發明對于網絡監管機構、關注社會熱點新聞和事件的機構來說,是非常有價值的自動跟蹤熱點詞匯出現頻率的工具。
以下討論的關于詞的方法,均指互聯網信息中的關鍵詞。
不同詞有不同的出現詞頻,而在某日,不同出現詞頻的詞的相同出現次數有不同含義。對于一個使用頻率很高的詞來說,詞頻的歷史均值和歷史標準差都很大,例如,分別是500次/天和350次/天。如果在某一天,其互聯網頻率增加了300次,變成了800次,即增加了大約1倍,那么一般仍然很正常;但是,如果其互聯網頻率變成了1200次,即增加了大約2倍,就會預示著發生了相應的熱點新聞或事件了。
而對一個頻率比較低的詞,平均日互聯網出現頻率及其標準差很小,例如,分別是20次和15次。如果在某一天,其互聯網頻率增加了30次,變成了50次,即增加了大約1倍多,那么一般仍然很正常;但是,如果在某一天,互聯網上該詞的信息量增加了300次,變成了320次,則預示出現了相應的熱點事件或新聞。
也就是說,同樣是增加300次,對高頻詞說,仍然正常;而對低頻詞來說,則說明出現了異常事件。即對具有不同詞頻的詞的度量,標準是不同的。
對于低頻詞,上述的300次出現次數稱為異常高的詞頻增加量。本發明的主要目標是監測異常高的詞頻增加量,進而預測網絡熱點信息的出現或降溫,以及進行必要的報警。
Khoo?K.B.等人于2001年提出了一種跟蹤熱點話題的方法,對一些定點的網站或者網頁定期統計一些關鍵詞項(term)的詞頻,并利用tfidf公式計算每個term的當前權重,并從中得到當前的熱點話題(Khoo?K.B.,Mitsuru?I.Emerging?TopicTracking?System.Advanced?Issues?of?E-Commerce?and?Web-Based?Information?Systems,WECWIS?2001,Third?International?Workshop?on.2-11.2001.),以下稱為現有技術1。其貢獻之處在于,現有技術1給出了一種標準化的公式來計算每個term的當前權重,隨著時間的變化,這個權重也會隨之變化,從而反映出互聯網信息熱點的變化情況。其主要缺點在于,沒有考慮每個term的歷史均值和歷史標準差,因此無法按照高頻詞和低頻詞的歷史表現對異常的熱點進行準確的度量,只能對各個term進行橫向的比較。
發明內容
本發明的目的是提供一種通過對互聯網信息中熱點詞匯的頻率所發生的變化進行監測,從而對互聯網信息進行異常狀態監測的方法。
本發明的技術方案如下:
一種對互聯網信息進行異常狀態監測的方法,所述的方法是結合用戶關注的熱點詞匯詞典,對用戶關注的互聯網信息進行異常狀態的監測,具體包括以下步驟:
一、獲取通用詞匯在當日互聯網頁中出現的當日詞頻數據,并存入數據庫。
對互聯網的網頁進行定時抓取,得出每個通用詞匯在每篇網頁中的詞頻數;累加所有網頁中該通用詞匯的詞頻數,得到當日互聯網信息中的該通用詞匯的當日詞頻數據,并存入數據庫。可以按照以下步驟進行:
(1.1)給定欲抓取的互聯網站點列表并存入數據庫之中;
(1.2)遍歷數據庫站點列表中的每一條記錄,按照如下方法得到該站點中每一個通用詞匯的詞頻數:根據互聯網站點列表記錄和通用詞匯表,得到需抓取的網頁鏈接地址;根據需抓取的鏈接地址,找出每一個通用詞匯標有當天日期的信息,并對這些信息計數;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學,未經北京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710098645.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:高精度大流量微孔陶瓷管
- 下一篇:混凝土的梁柱節點施工方法
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





