[發(fā)明專利]一種基于非負矩陣分解的事件分析方法與系統(tǒng)在審
| 申請?zhí)枺?/td> | 201410495959.7 | 申請日: | 2014-09-24 |
| 公開(公告)號: | CN104281663A | 公開(公告)日: | 2015-01-14 |
| 發(fā)明(設(shè)計)人: | 張日崇;邰振贏;于偉仁;劉俊偉;李建欣 | 申請(專利權(quán))人: | 北京航空航天大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京同立鈞成知識產(chǎn)權(quán)代理有限公司 11205 | 代理人: | 劉芳 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 矩陣 分解 事件 分析 方法 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明屬于數(shù)據(jù)挖掘技術(shù)領(lǐng)域,尤其是涉及一種基于非負矩陣分解的事件分析方法與系統(tǒng)。
背景技術(shù)
隨著互聯(lián)網(wǎng)技術(shù)的蓬勃發(fā)展,越來越多的用戶通過比如論壇、微博等社交網(wǎng)絡(luò)平臺來發(fā)布各種新聞或者發(fā)表個人對一些社會現(xiàn)象的意見,從而導致互聯(lián)網(wǎng)上的各種數(shù)據(jù)信息也呈現(xiàn)出爆炸式增長,如何對海量的數(shù)據(jù)信息進行有效的事件挖掘是各搜索引擎一個主要研究的問題。
現(xiàn)有的一種數(shù)據(jù)挖掘的方式是采用層次式的聚類方式,對給定數(shù)據(jù)對象集合進行層次的分解,直到某種截止條件滿足為止。具體又可分為:凝聚的層次聚類:一種自底向上的策略,首先將每個數(shù)據(jù)對象作為一個原子簇,然后以數(shù)據(jù)對象間的相似性為依據(jù)合并這些原子簇為越來越大的簇,直到某個截止條件被滿足。分裂的層次聚類:采用自頂向下的策略,它首先將所有數(shù)據(jù)對象置于一個簇中,然后逐漸細分為越來越小的簇,直到達到了某個截止條件。
但是,由于層次聚類的方式本身的特性決定了其具有較高的計算復雜度,使得可擴展性受限,不適于應(yīng)用在海量數(shù)據(jù)的事件挖掘中。
發(fā)明內(nèi)容
針對上述存在的問題,本發(fā)明提供一種基于非負矩陣分解的事件分析方法與系統(tǒng),用以克服現(xiàn)有技術(shù)中的層次聚類方式導致較高的計算復雜度和較差的可擴展性的缺陷。
本發(fā)明提供了一種基于非負矩陣分解的事件分析方法,包括:
獲取待處理數(shù)據(jù),所述待處理數(shù)據(jù)中包括至少一個數(shù)據(jù)文本;
分別對所述至少一個數(shù)據(jù)文本中的每個數(shù)據(jù)文本進行分詞處理,得到與所述待處理數(shù)據(jù)對應(yīng)的文本空間矩陣,所述文本空間矩陣描述了所述至少一個數(shù)據(jù)文本中所包含的詞語信息;
對所述文本空間矩陣進行非負矩陣分解,根據(jù)分解得到的基矩陣確定所述待處理數(shù)據(jù)中包含的各個事件以及分別用于描述所述各個事件的關(guān)鍵詞,并根據(jù)分解得到的系數(shù)矩陣確定分別與所述各個事件對應(yīng)的數(shù)據(jù)文本。
本發(fā)明提供了一種基于非負矩陣分解的事件分析系統(tǒng),包括:
獲取模塊,用于獲取待處理數(shù)據(jù),所述待處理數(shù)據(jù)中包括至少一個數(shù)據(jù)文本;
處理模塊,用于分別對所述至少一個數(shù)據(jù)文本中的每個數(shù)據(jù)文本進行分詞處理,得到與所述待處理數(shù)據(jù)對應(yīng)的文本空間矩陣,所述文本空間矩陣描述了所述至少一個數(shù)據(jù)文本中所包含的詞語信息;
計算模塊,用于對所述文本空間矩陣進行非負矩陣分解,根據(jù)分解得到的基矩陣確定所述待處理數(shù)據(jù)中包含的各個事件以及分別用于描述所述各個事件的關(guān)鍵詞,并根據(jù)分解得到的系數(shù)矩陣確定分別與所述各個事件對應(yīng)的數(shù)據(jù)文本。
本發(fā)明提供的基于非負矩陣分解的事件分析方法與系統(tǒng),在獲取到包含多個數(shù)據(jù)文本的待處理數(shù)據(jù)后,以詞語為單位,對該多個數(shù)據(jù)文本分別進行分詞處理,從而得到用于描述該待處理數(shù)據(jù)中包含的多個數(shù)據(jù)文件信息以及該多個數(shù)據(jù)文件信息中包含的所有詞語的文本空間矩陣。進而,在該文本空間矩陣進行非負矩陣分解,根據(jù)分解得到的基矩陣得到待處理數(shù)據(jù)中包含的各個事件以及分別用于描述所述各個事件的關(guān)鍵詞,并根據(jù)分解得到的系數(shù)矩陣確定分別與每個事件對應(yīng)的數(shù)據(jù)文本,即包含該事件的數(shù)據(jù)文本。通過構(gòu)造待處理數(shù)據(jù)的文本空間矩陣,并對該文本空間矩陣進行非負矩陣分解,從而將一個規(guī)模龐大的矩陣分解成為兩個規(guī)模較小的矩陣,并且保證分解前后矩陣元素的非負性,即在分解前后同一位置上的元素為正數(shù),在保證事件挖掘結(jié)果的準確性的同時,通過降維找到待處理數(shù)據(jù)中包含的事件,計算簡便,可擴展性較好。
附圖說明
圖1為本發(fā)明基于非負矩陣分解的事件分析方法實施例一的流程圖;
圖2為本發(fā)明基于非負矩陣分解的事件分析方法實施例二的流程圖;
圖3為本發(fā)明基于非負矩陣分解的事件分析系統(tǒng)實施例一的結(jié)構(gòu)示意圖;
圖4為本發(fā)明基于非負矩陣分解的事件分析系統(tǒng)實施例二的結(jié)構(gòu)示意圖。
具體實施方式
圖1為本發(fā)明基于非負矩陣分解的事件分析方法實施例一的流程圖,如圖1所示,該方法包括:
步驟101、獲取待處理數(shù)據(jù),所述待處理數(shù)據(jù)中包括至少一個數(shù)據(jù)文本;
步驟102、分別對所述至少一個數(shù)據(jù)文本中的每個數(shù)據(jù)文本進行分詞處理,得到與所述待處理數(shù)據(jù)對應(yīng)的文本空間矩陣,所述文本空間矩陣描述了所述至少一個數(shù)據(jù)文本中所包含的詞語信息;
步驟103、對所述文本空間矩陣進行非負矩陣分解,根據(jù)分解得到的基矩陣確定所述待處理數(shù)據(jù)中包含的各個事件以及分別用于描述所述各個事件的關(guān)鍵詞,并根據(jù)分解得到的系數(shù)矩陣確定分別與所述各個事件對應(yīng)的數(shù)據(jù)文本。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京航空航天大學,未經(jīng)北京航空航天大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410495959.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





