[發明專利]一種分析微博話題演化的模型在審
| 申請號: | 201610878239.8 | 申請日: | 2016-10-09 |
| 公開(公告)號: | CN107918611A | 公開(公告)日: | 2018-04-17 |
| 發明(設計)人: | 王振飛;劉凱莉;張利瑩;鄭志蘊;李鈍 | 申請(專利權)人: | 鄭州大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 450000 河南省鄭*** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 分析 話題 演化 模型 | ||
1.一種分析微博話題演化的模型,其特征在于,包括以下步驟:
1)微博話題數據的抓取及預處理;
2)建立微博話題主題獲取模型MTLDA;
3)將數據劃分時間片,在每個時間片利用MTLDA模型完成每個時間片微博話題的主題發現。
4)計算相鄰時間片的KL距離,分析話題的演化情況。
2.根據權利1所述的分析微博話題演化模型,其特征在于,所述的數據抓取及預處理通過以下方法獲得:
1)去除停用詞。將出現頻率高,沒有太大檢索意義的詞定義為停用詞。將參與同一微博話題的用戶所發表的微博評論抓取組合成一個文檔,使用停用詞表去除微博話題文檔中的停用詞。
2)對微博話題文檔進行分詞。采用中國科學院計算技術研究所研制的漢語詞法分析系統(Institute of Computing Technology Chinese Lexical Analysis System,ICTCLAS)進行微博數據分詞。
3)剔除垃圾用戶發布的微博。結合用戶的發布微博的周期頻率、提及其他用戶的比例、包含URL的比例、用戶好友數目與其粉絲數目的比例這四個因素來判斷是否為垃圾用戶。
3.根據權利1所述的分析微博話題演化模型,其特征在于,所述的建立微博話題主題發現模型的方法通過以下方法獲得:
S1.設定超參數α,β,γ,β1
S2.對于每一個微博話題zi,θi~Dir(α)
S3.對于每一個微博話題文檔di,zm,n~Mult(θm)
S3.1.對于微博文檔中的每一個詞wi,Y~Bernoulli(π)
S3.2.判斷如果Y=1,wm,n~Mult(Ω);否則,如果Y≠1,
S4.重復步驟S3,直到輸出全部主題--詞概率列表。
4.根據權利1所述的分析微博話題演化模型,其特征在于,所述的計算相鄰時間片的KL距離的方法通過以下方法獲得:
KL距離也叫相對熵,是衡量相同事件空間里的兩個概率分布的相似情況。本文采用KL距離來對相鄰時間片的微博話題進行衡量。設Z1={w11,w12,…,w1n}和Z2={w21,w22,…,w2n}是兩個相鄰時間片中的子話題,P(i)是子話題Z1中第i個詞的概率分布,Q(i)是Z2子話題中第i個詞的概率,兩個話題的KL距離公式為:
由公式可推知,P(i)和Q(i)兩個概率分布越接近,則兩個話題的KL距離越小,說明兩個話題越相近。兩個相鄰的時間片中,若上一個時間片ti-1的話題與下一個時間片ti的所有子話題之間KL距離都大于給定的閾值,則定義為新話題產生;若ti-1的話題與ti的所有子話題KL距離有大于給定的閾值,也有小于給定的閾值,則定義為子話題分裂。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鄭州大學,未經鄭州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610878239.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種多功能動物實驗箱
- 下一篇:一種變化立體空間的寵物床





