[發明專利]一種自動分析互聯網上熱點主題傳播過程的方法及系統有效
| 申請號: | 200710062944.1 | 申請日: | 2007-01-22 |
| 公開(公告)號: | CN101231641A | 公開(公告)日: | 2008-07-30 |
| 發明(設計)人: | 萬小軍;王棟;黃小江;余軍;楊建武;吳於茜 | 申請(專利權)人: | 北大方正集團有限公司;北京大學;北京北大方正技術研究院有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京同達信恒知識產權代理有限公司 | 代理人: | 李欣 |
| 地址: | 100871北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 自動 分析 互聯網 熱點 主題 傳播 過程 方法 系統 | ||
技術領域
本發明屬于智能信息處理技術領域,具體涉及一種自動分析互聯網上熱點主題傳播過程的方法及系統。
背景技術
近年來,互聯網上文本信息呈爆炸性增長,包括新聞,論壇,博客(blog)等多種形式。互聯網上文本信息的一個特點就是并非所有文本信息都是原創的,其中很多文本信息都是從別的網站轉載的,例如,新浪網上的大部分新聞都是從別的網站或媒體轉載而來,并且可能經過簡單的編輯加工。論壇上的熱門帖子也有很多是從別的網站或媒體轉載而來。這種互聯網上文本信息之間大量轉載的現象被稱之為互聯網信息傳播。人們通過主題檢測與全文檢索可以找到熱點主題與敏感主題,而通過分析某個主題在互聯網上信息傳播過程,可以了解該主題的傳播源頭以及傳播樞紐,對該主題進行監控跟蹤,從而輔助決策。傳播源頭指信息的始發站點,也就是第一次發表的站點。傳播樞紐則指向外轉載最多信息的地點,也就是出度最大的站點。通過綜合分析大量主題的信息傳播過程,可以獲取互聯網上信息傳播的整體趨勢,從宏觀角度找到互聯網核心網站。本發明重點在于針對某個特定熱點或敏感主題,分析其信息傳播過程,方便用戶跟蹤監控。
目前對互聯網信息傳播過程的研究一般都基于傳播學理論,從宏觀角度分析探討適合描述互聯網信息傳播過程的各種模型。其中疾病傳播模型是最早被廣泛接受的一種模型,能夠較好地和互聯網信息傳播過程進行吻合,參見書籍The?mathematical?theory?of?infectious?diseases?and?its?applications(作者為N.Bailey,第二版,出版于1975年)和文章A?simple?model?of?epidemics?withpathogen?mutation(作者為M.Girvan等,發表于2002年出版的期刊:Phys.Rev.E)。近些年,不少文章提出和探討了基于社會網絡分析的傳播模型,包括文章Epidemics?and?percolation?in?small-world?networks(作者為C.Moore和M.E.J.Newman,發表于2000年出版的期刊:Phys.Rev.E)、文章Collective?dynamicsof‘small-world’networks(作者為D.Watts和S.Strogatz,發表于1998年出版的期刊:Nature)以及文章Epidemic?spreading?in?scale-free?networks(作者為R.Pasto-Satorras和A.Vespignani,發表于2001年出版的期刊:Phys.Rev.Letters)。此外,有文章專門針對博客提出了不同的信息傳播模型,包括文章On?the?bursty?evolution?of?blogspace(作者為R.Kumar等,發表于2003年出版的論文集:Proceedings?of?WWW)和文章Information?diffusion?through?blogspace(作者為D.Gruhl等,發表于2004年出版的論文集:Proceedings?of?WWW)。
以上模型都從宏觀角度描述互聯網信息傳播特性,無法分析特定主題的信息傳播過程,而用戶往往需要監控跟蹤熱點主題或敏感主題的信息傳播過程,進而做出決策。本發明的方法可以滿足用戶從微觀層面上對信息傳播過程監控的需求。
發明內容
為了滿足用戶跟蹤監控特定主題的信息傳播過程的需求,本發明通過綜合利用模式匹配方法和相似性比較方法對屬于該主題內的文檔逐一查找其轉載出處以及對應的源文檔,最終繪制出信息傳播過程圖。具體說來,對于站點B上的文檔b,采用本發明的方法可以獲取文檔b的轉載出處A以及對應的源文檔a,記作站點A(文檔a)->站點B(文檔b),站點A與B分別成為文檔a與b的發布站點(PublishSite),站點A是文檔b的轉載出處(SourceSite),文檔a是文檔b的源文檔(SourceDoc)。該方法具有高效性、魯棒性等優點,具有很大的實用價值。
為達到以上目的,本發明采用的技術方案是:一種自動分析互聯網上熱點主題傳播過程的方法,包括以下步驟:
(1)讀入屬于同一熱點主題的文檔集,抽取文檔元數據;
(2)按照文檔發表時間將文檔排序,得到序列d1,d2,...dn,n為文檔數量;
(3)從序列中第一篇文檔開始,計算當前文檔di的轉載出處;并獲取該文檔對應的源文檔。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北大方正集團有限公司;北京大學;北京北大方正技術研究院有限公司,未經北大方正集團有限公司;北京大學;北京北大方正技術研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710062944.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種工業機器人的標定方法
- 下一篇:用于以太網的業務復用方法





