[發明專利]在線監督式主題建模及其演變分析的方法無效
| 申請號: | 201210059495.6 | 申請日: | 2012-03-08 |
| 公開(公告)號: | CN102662960A | 公開(公告)日: | 2012-09-12 |
| 發明(設計)人: | 邵健;張寅;任鴻凱;吳飛 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 張法高 |
| 地址: | 310027 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 在線 監督 主題 建模 及其 演變 分析 方法 | ||
技術領域
本發明涉及文本的主題挖掘領域,尤其涉及一種在線監督式主題建模及其演變分析方法。
背景技術
隨著互聯網的飛速發展,各種網絡資源迅猛增長,如何將龐大的數據集以合理的結構展示,便于用戶迅速地了解各主題事件的當前及歷史信息顯得尤為重要。傳統的搜索、索引及瀏覽已經不能滿足用戶的需求,將相關事件在語義層面上抽象成主題,以主題形式表現整個數據集成為了更為科學合理的方式。因此挖掘數據內容的主題及其演變的算法研究具有迫切的現實意義,也充滿無盡的挑戰。
現今對離散數據進行主題建模和分析的方法大多采用概率主題模型實現,其能自動地檢測出給定集合的主題,并且被證明是分析理解數據的有效方法,尤其是LDA(Latent?Dirichlet?Allocation)模型。然而隨著文檔數據格式的豐富和互聯網的發展,傳統的純文本觀點往往不適合,容易忽略了一些很重要的特征,如時間、作者、類別、用戶提供的標簽等等。并且面對實際需解決的數據流主題分析問題,傳統的主題挖掘算法無法在線實時分析數據,將時間信息用在現有的主題模型中,合理地利用已經學到的先驗知識進行主題的挖掘成為了國內外研究的熱點。所以在主題模型中,一個非常重要的方向就是如何將這些有用的特征融入模型。如監督式LDA(Supervised?LDA)引入了文本的類別信息,OLDA(Online?LDA)方法引入了時間信息。
盡管已經有眾多國內外的科研工作者在改進主題模型方面做出努力,并產生了很多有效的主題挖掘算法,但目前為止沒有一種模型能同時考慮文檔的時序特性和類別屬性。不同的類別往往反映出不同的主題。現有研究表明,在文檔分析中,若能有效利用文檔中除單詞之外的其他輔助信息可有效地提高隱含主題的挖掘及其演變分析的性能。
針對需解決的帶有類別標簽的新聞數據文本進行主題演化分析時,我們提出了在線監督式主題挖掘及演變分析的算法。該方法能在線實時地分析主題的演變,適用于海量數據的分析。其將前一時刻學到的先驗知識有效地用于當前時刻的主題分布,有效地利用了文本間的實現關系。考慮到主題跟類別之間的相關性,利用文本的類別特征及各單詞在文本中的詞頻及權重,并結合主題在單詞上的分布重計算其所屬的類別,并在類內計算主題的相似性來表征主題間的演變關系。同時,利用各文本上的主題概率計算主題的強度及其相關的文本,實現更直觀地表示。
發明內容
本發明的目的是克服現有技術的不足,提供一種在線監督式主題建模及其演變分析的方法。
在線監督式主題建模及其演變分析的方法包括如下步驟:
1)編寫爬蟲程序,從新聞媒體網站上下載一段時間的新聞文本,并以一周為時間粒度構成新聞文本數據集D={S1,S2......St},Si表示一周的數據;
2)對當前時間段的新聞文本進行分詞處理,根據詞頻過濾確定當前的詞匯表;
3)提取新聞文本特征,形成單詞與新聞文本的關系矩陣,作為在線監督式主題模型的輸入;
4)建立在線監督式主題模型,對每個時間粒度內的數據集,用在線監督式主題模型檢測主題,得到單詞關于主題的分布矩陣φ及主題在新聞文本上的分布矩陣θ;
5)用Jensen-Shannon散度對步驟4)中所得的主題進行演變分析并計算各主題的屬性,得出各主題的演變過程。
所述的步驟2)為:
1)對當前時間粒度數據集St中的新聞文本進行分詞,去除停用詞、數字、標點符號,并更新總的單詞列表SW={(swi):i=1,2,...,l}及其相應的詞頻SC;
2)當前的單詞列表Wt為SW中詞頻不小于5的單詞,并得到相關矩陣C,相關矩陣C是一個|Wt|×2的矩陣,ci1表示單詞wi在St中出現的次數,ci2表示出現該單詞的文本數量。
所述的步驟3)為:根據tfidf值提取新聞文本特征,確定每篇新聞文本的單詞及詞頻作為輸入,tfidf的計算公式如下
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210059495.6/2.html,轉載請聲明來源鉆瓜專利網。





