[發(fā)明專利]基于時序分布信息和主題模型的新聞事件演化分析方法有效
| 申請?zhí)枺?/td> | 201410127095.3 | 申請日: | 2014-03-31 |
| 公開(公告)號: | CN103984681B | 公開(公告)日: | 2017-01-25 |
| 發(fā)明(設(shè)計)人: | 王俊麗;王志成;趙衛(wèi)東;王堅(jiān) | 申請(專利權(quán))人: | 同濟(jì)大學(xué) |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 上海天協(xié)和誠知識產(chǎn)權(quán)代理事務(wù)所31216 | 代理人: | 葉鳳 |
| 地址: | 200092 *** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 時序 分布 信息 主題 模型 新聞 事件 演化 分析 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及文本分析領(lǐng)域,特別涉及到一種新聞事件主題演化分析的方法。
背景技術(shù)
互聯(lián)網(wǎng)時代,信息以爆炸式的速度增長,但是尋找自己真正需要的信息卻變得越來越困難,因此,我們需要新的方法來幫助我們組織和理解這些龐大的信息。主題模型作為一種可以自動組織、理解、搜索和概括大規(guī)模電子文檔的方法,能夠用于挖掘隱藏在文檔集合中的主題信息,然后根據(jù)文檔的主題進(jìn)行標(biāo)記,最后可以根據(jù)標(biāo)記來組織、概括和搜索文本。
主題模型(Topic?Models)的基本思想是,一個文檔是由多個主題混合而成的,而主題是在詞庫上的一個概率分布。主題模型是一個生成式模型,為了生成一個文檔,首先選擇一個主題的概率分布,然后對于文檔的每個詞,根據(jù)主題的概率分布隨機(jī)的選擇一個主題,并從該主題中選擇一個詞。利用統(tǒng)計學(xué)的一個方法,我們可以推理出生成該文檔集合的主題集合。
主題模型的起源是隱性語義索引(Latent?Semantic?Indexing,LSI)。LSI并不是概率模型,因此也算不上一個主題模型,但是其基本思想為主題模型的發(fā)展奠定了基礎(chǔ)。在LSI基礎(chǔ)上,Hofmann(1999;2001)提出了pLSI(Probabilistic?Latent?Semantic?Indexing)模型,但pLSI并沒有用一個概率模型來模擬文檔的產(chǎn)生,只是通過對訓(xùn)練集種的有限文檔進(jìn)行擬合,得到特定文檔的主題混合比例。這樣就導(dǎo)致了pLSI模型參數(shù)隨著訓(xùn)練集中的文檔數(shù)目線性增加,出現(xiàn)過擬合現(xiàn)象,而且對于訓(xùn)練集以外的文檔很難分配合適的概率。2003年,Blei等人pLSI基礎(chǔ)上加以擴(kuò)展,提出了LDA(Latent?Dirichlet?Allocation)模型。LDA模型用服從Drichlet分布的K維隱含隨機(jī)變量表示文檔的主題混合比例,來模擬文檔的產(chǎn)生。Dirchlet分布作為多項(xiàng)分布的共軛先驗(yàn),很好的簡化了統(tǒng)計推理問題。
但是LDA模型假設(shè)語料庫中的所有文檔是可交換的,但是在許多實(shí)際的語料中,該假設(shè)并不合適,如學(xué)術(shù)期刊,郵件,新聞等等的內(nèi)容,都是隨著時間不斷演化的。為了顯示地描述和發(fā)現(xiàn)主題的動態(tài)變化情況,2006年Blei和Lafferty又提出了DTM(Dynamic?Topic?Model)。在DTM模型中,作者按時間片對文檔集合進(jìn)行劃分,然后分別對每個時間片內(nèi)地文檔用LDA模型進(jìn)行建模,而時間片t的主題是從時間片t-1的主題進(jìn)化而來的。
但是DTM模型中,每個時間片內(nèi)的主題數(shù)是確定的,并且所有的主題都是由第一個時間片內(nèi)的主題演變而來,因此該模型比較適合大規(guī)模的涵蓋多個主題的語料庫,這樣的情況下,DTM模型能夠很好的跟蹤每個主題,如何從第一個時間片一步一步演變到最后一個時間片。對于只包含特定新聞事件的語料庫,DTM很難發(fā)現(xiàn)后續(xù)時間片內(nèi)事件的新變化。
發(fā)明內(nèi)容
本發(fā)明目的在于克服現(xiàn)有技術(shù)的不足,公開一種基于時序分布信息和主題模型的新聞事件演化分析方法,本發(fā)明方法將主題模型應(yīng)用到新聞事件的主題跟蹤和演化分析,同時結(jié)合新聞報道在時序上表現(xiàn)出的分布信息,改進(jìn)主題模型在新聞事件跟蹤和演化分析的效果,以更好獲取新聞事件發(fā)展脈絡(luò)。
本發(fā)明方法技術(shù)方案概括為:首先通過分析新聞報道在時間序列上表現(xiàn)出來的分布特征,并利用K-Means聚類算法,將語料庫按時間劃分成幾個子語料庫;然后利用主題模型(LDA)依次對每個子語料庫進(jìn)行主題建模,通過Gibbs抽樣的方法可以將模型學(xué)習(xí)出來,得到每個子語料的主題分布信息;最后通過計算相鄰子語料庫中兩兩主題之間的Jensen-Shannon距離,取距離最小的主題串聯(lián)起來,被串聯(lián)起來的主題便是該事件的主主題,每個子語料中除了主主題之外的輔助主題,便是該事件在各個階段的關(guān)注點(diǎn)和新的發(fā)展。
上述技術(shù)方案,具體包括實(shí)施步驟:
(1)文檔時序分析。通過遍歷某一事件相關(guān)報道的文檔集合,生成報道在時間上的分布信息,即每天各有多少數(shù)量的相關(guān)報道,并在二維空間繪制分布圖,橫軸表示時間,縱軸表示數(shù)量;
(2)通過自適應(yīng)的K-Means算法,將(1)獲得分布數(shù)據(jù)進(jìn)行聚類分析,從而將該事件相關(guān)報道的文檔集合劃分成多個子集合,每個子集合擁有不同的時間跨度,并且在時間上擁有連續(xù)性,即前一個子集合的結(jié)束時間是下一個子集合的開始時間;
(3)文檔預(yù)處理,構(gòu)建新聞演化分析的語料庫。給定關(guān)于某一事件的相關(guān)報道的文檔集合,通過詞性標(biāo)注僅保留名詞(包括專有名詞)、動詞(及其變形)、形容詞(及其變形),去掉停用詞等處理,獲取文檔集合中的有效詞作為語料庫;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于同濟(jì)大學(xué),未經(jīng)同濟(jì)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410127095.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





