[發明專利]在線監督式主題建模及其演變分析的方法無效
| 申請號: | 201210059495.6 | 申請日: | 2012-03-08 |
| 公開(公告)號: | CN102662960A | 公開(公告)日: | 2012-09-12 |
| 發明(設計)人: | 邵健;張寅;任鴻凱;吳飛 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 張法高 |
| 地址: | 310027 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 在線 監督 主題 建模 及其 演變 分析 方法 | ||
1.一種在線監督式主題建模及其演變分析的方法,其特征在于包括如下步驟:
1)編寫爬蟲程序,從新聞媒體網站上下載一段時間的新聞文本,并以一周為時間粒度構成新聞文本數據集D={S1,S2......St},Si表示一周的數據;
2)對當前時間段的新聞文本進行分詞處理,根據詞頻過濾確定當前的詞匯表;
3)提取新聞文本特征,形成單詞與新聞文本的關系矩陣,作為在線監督式主題模型的輸入;
4)建立在線監督式主題模型,對每個時間粒度內的數據集,用在線監督式主題模型檢測主題,得到單詞關于主題的分布矩陣φ及主題在新聞文本上的分布矩陣θ;
5)用Jensen-Shannon散度對步驟4)中所得的主題進行演變分析并計算各主題的屬性,得出各主題的演變過程。
2.根據權利要求1所述的一種在線監督式主題建模及其演變分析的方法,其特征在于,所述的步驟2)為:
1)對當前時間粒度數據集St中的新聞文本進行分詞,去除停用詞、數字、標點符號,并更新總的單詞列表SW={(swi):i=1,2,...,l}及其相應的詞頻SC;
2)當前的單詞列表Wt為SW中詞頻不小于5的單詞,并得到相關矩陣C,相關矩陣C是一個|Wt|×2的矩陣,ci1表示單詞wi在St中出現的次數,ci2表示出現該單詞的文本數量。
3.根據權利要求1所述的一種在線監督式主題建模及其演變分析的方法,其特征在于,所述的步驟3)為:根據tfidf值提取新聞文本特征,確定每篇新聞文本的單詞及詞頻作為輸入,tfidf的計算公式如下
其中,SD表示當前處理文檔總的單詞數,SM表示St中總的文檔數,過濾掉tfidf值小于0.05的單詞;
另外,前一時刻得出的單詞關于主題的分布矩陣φt-1,是一個|Wt-1|×K矩陣,K為主題數量,根據新的單詞列表Wt,將其更新為|Wt|×T的矩陣,新出現單詞關于主題的分配為0,新聞文本的類別映射到整數集合上,分別用1、2…L表示,L為類別總數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210059495.6/1.html,轉載請聲明來源鉆瓜專利網。





