[發明專利]一種互聯網新聞事件報道趨勢分析方法及系統有效
| 申請號: | 201210004878.3 | 申請日: | 2012-01-09 |
| 公開(公告)號: | CN103198078A | 公開(公告)日: | 2013-07-10 |
| 發明(設計)人: | 梁汝峰;趙增峰;王松;劉杰;張丹;孫紅娥;楊建武 | 申請(專利權)人: | 北大方正集團有限公司;北京大學;北京北大方正電子有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京天悅專利代理事務所(普通合伙) 11311 | 代理人: | 田明;任曉航 |
| 地址: | 100871 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 互聯網 新聞 事件 報道 趨勢 分析 方法 系統 | ||
1.一種互聯網新聞事件報道趨勢分析方法,包括以下步驟:
(1)根據配置的新聞事件的特征信息,實時采集互聯網中的新聞信息;
(2)預處理所述新聞信息,篩選出發布時間在設置的新聞事件的統計周期內的新聞信息;
(3)分析篩選出的新聞信息的正文信息,得到新聞信息的主題及主題信息;所述主題包括存在主題信息的主題和不存在主題信息的源主題;
(4)分析當前統計周期與前一統計周期的主題,得出當前統計周期與前一統計周期之間的相同主題以及各相同主題的關聯信息數;
(5)根據所述關聯信息數,得出轉化主題;所述轉化主題是指當前統計周期該相同主題的關聯信息數大于或等于前一統計周期該相同主題的關聯信息數;
(6)獲取設定時間段內的源主題和轉化主題的關聯信息數,并展現源主題和轉化主題的關聯信息數隨時間的分布趨勢。
2.如權利要求1所述的互聯網新聞事件報道趨勢分析方法,其特征在于:步驟(1)中,所述特征信息包括新聞信息的關鍵詞、關鍵詞權重和關鍵詞之間的邏輯關系;所述新聞信息包括正文信息和評論信息;所述關鍵詞權重是指關鍵詞在整體關鍵詞組中的地位;所述關鍵詞之間的邏輯關系包括與、或、非及其之間的嵌套關系,通過邏輯關系表達式表達。
3.如權利要求1所述的互聯網新聞事件報道趨勢分析方法,其特征在于:步驟(1)中,所述采集互聯網中新聞信息包括對所述新聞信息的下載、分析、元數據的抽取。
4.如權利要求3所述的互聯網新聞事件報道趨勢分析方法,其特征在于:所述元數據包括正文信息元數據和評論信息元數據,所述正文信息元數據包括標題、正文、來源的網站名稱、頻道名稱、發布時間;所述評論信息元數據包括評論正文、評論發布時間和評論作者。
5.如權利要求1~4中任一項所述的互聯網新聞事件報道趨勢分析方法,其特征在于:步驟(2)中,所述篩選發布時間在所設置的新聞事件的統計周期內的新聞信息的具體方法如下:
(a)篩選發布時間為新聞事件的統計周期內所采集的新聞信息;
(b)查看步驟(a)中篩選出的新聞信息是否存在主題信息,如是,則篩選完成,否則,通過設定的關鍵詞、關鍵詞之間的邏輯關系過濾符合條件的新聞信息。
6.如權利要求5所述的互聯網新聞事件報道趨勢分析方法,其特征在于:步驟(b)中,所述通過設定的關鍵詞、關鍵詞之間的邏輯關系過濾符合條件的新聞信息時,只包括新聞正文信息,不包括新聞評論信息。
7.如權利要求1所述的互聯網新聞事件報道趨勢分析方法,其特征在于:步驟(3)中,將主題按相關度由高到低排序,只保留按所述相關度排序中排名靠前的N個源主題,N≥10。
8.如權利要求1所述的互聯網新聞事件報道趨勢分析方法,其特征在于:步驟(5)中,得出轉化主題后,將轉化主題內的關聯信息按與主題的相似度由高到低排序,標記相似度最高的信息作為其代表文章。
9.如權利要求1所述的互聯網新聞事件報道趨勢分析方法,其特征在于:步驟(6)中,通過散點圖展現源主題和轉化主題的關聯信息數隨時間的分布趨勢,X軸表示主題的時間,Y軸表示主題的關聯信息數。
10.如權利要求要求1或9所述的互聯網新聞時間報道趨勢分析方法,其特征在于:步驟(6)中,所述展現源主題的關聯信息數隨時間的分布趨勢,包括對源主題、源主題后續相同主題、源主題關聯主題和源主題后續關聯主題的展現;
所述源主題后續相同主題是指第n次統計周期得出的主題都是其前一統計周期的相同主題,其中n>1;所述源主題關聯主題是指與前一統計周期相同的主題;所述源主題后續關聯主題是指源主題的關聯主題及源主題后續相同主題的關聯主題。
11.如權利要求要求1或9所述的互聯網新聞時間報道趨勢分析方法,其特征在于:所述展現轉化主題的關聯信息數隨時間的分布趨勢,包括對轉化主題,轉化主題后續相同主題、轉化主題后續關聯主題的展現;
所述轉化主題后續相同主題是指假設第p次統計周期分析得出轉化主題,由此轉化主題后續第p+q次統計周期分析得出的主題都是其前一統計周期的相同主題,其中p>1,q>1;所述轉化主題后續關聯主題是指轉化主題的關聯主題及轉化主題后續相同主題的關聯主題。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北大方正集團有限公司;北京大學;北京北大方正電子有限公司,未經北大方正集團有限公司;北京大學;北京北大方正電子有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210004878.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種對網頁的處理方法及裝置
- 下一篇:一種內存故障自動定位方法及裝置





