[發明專利]一種短文本數據的事件演化分析方法有效
| 申請號: | 201310082990.3 | 申請日: | 2013-03-15 |
| 公開(公告)號: | CN103150383A | 公開(公告)日: | 2013-06-12 |
| 發明(設計)人: | 程學旗;劉盛華;李福鑫;王元卓;劉悅 | 申請(專利權)人: | 中國科學院計算技術研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京泛華偉業知識產權代理有限公司 11280 | 代理人: | 王勇 |
| 地址: | 100190 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 數據 事件 演化 分析 方法 | ||
1.一種短文本數據的事件演化分析方法,包括:
步驟1)、根據詞庫和當前時段輸入的短文本數據構造當前時段的文檔—詞項矩陣并對其進行非負矩陣分解,得到當前時段的事件—詞項矩陣和事件集合;
步驟2)、根據當前時段的事件—詞項矩陣和前一時段的事件—詞項矩陣計算當前時段的事件和前一時段的事件之間的相似度,根據該相似度、當前時段的事件集合和前一時段的剩余圖構造當前時段的事件關系圖,其中前一時段的剩余圖體現在當前時段之前的每個時段的事件及該事件之間的相似度;
步驟3)、將當前時段的事件關系圖分割為一個或多個子圖,最大化每個子圖之內的事件相似度,最小化每個子圖之間的相似度,將該一個或多個子圖分別歸類為消失事件集、新生成事件集和演化事件集。
2.根據權利要求1所述的方法,步驟2)中計算當前時段的事件和前一時段的事件之間的相似度包括:
根據如下公式分別計算當前時段的每個事件與前一時段的每個事件之間的相似度:
其中,h1,i表示當前時段的事件—詞項矩陣中對應事件h1的第i個詞項的元素權重,h2,i表示前一時段的事件—詞項矩陣中對應事件h2的第i個詞項的元素權重,D為詞項數量。
3.根據權利要求1或2所述的方法,步驟2)中構造當前時段的事件關系圖包括:
步驟21)、將當前時段的事件集合中的事件作為節點加入前一時段的剩余圖;
步驟22)、將當前時段的事件集合中的事件與前一時段的事件集合中的事件兩兩連邊,邊的方向為由前一事件指向當前事件,邊的權值為其連接的事件之間的相似度;
步驟23)、去除權值小于預定閾值t_value的邊。
4.根據權利要求1或2所述的方法,步驟4)中將一個或多個子圖分別歸類為消失事件集、新生成事件集和演化事件集包括:
當子圖內的事件演化終點不在當前時段的事件集合內,則該子圖內的事件構成消失事件集;
當子圖內的事件在當前時段的事件集合內而不在前一時段的事件集合內,則該子圖內的事件構成新生成事件集;
否則,該子圖內的事件構成演化事件集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所,未經中國科學院計算技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310082990.3/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





