[發明專利]一種網絡熱點話題的發現方法和系統在審
| 申請號: | 201710933407.3 | 申請日: | 2017-10-09 |
| 公開(公告)號: | CN107943816A | 公開(公告)日: | 2018-04-20 |
| 發明(設計)人: | 安振宇;孫亭;李毅;陳思;葉云;沈自然;沈昌力 | 申請(專利權)人: | 中國電子科技集團公司第二十八研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京中知法苑知識產權代理事務所(普通合伙)11226 | 代理人: | 常玉明 |
| 地址: | 210007 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網絡 熱點話題 發現 方法 系統 | ||
1.一種網絡熱點話題發現方法,包括如下步驟:
獲取海量網絡文本,去除低頻詞項,計算剩余常用詞的詞共現矩陣X;
對詞共現矩陣X進行稀疏非負矩陣分解,將分解結果W與其轉置H構成詞項-主題矩陣;
利用pLSA算法對詞項-主題矩陣進行計算,得到文檔-主題分布;
統計每個話題涉及的文檔數并進行熱點排序,得到網絡熱點話題。
2.根據權利要求1所述的網絡熱點話題發現方法,其特征在于,所述方法中當文本數量大于40000時開始去除低頻詞項,所述詞頻低于0.01的詞項為低頻詞項;所述去除低頻詞項后,剩余常用詞量保持在20000左右。
3.根據權利要求1所述的網絡熱點話題發現方法,其特征在于,所述計算剩余常用詞的詞共現矩陣X包括:
S101:獲得常用詞詞項ti的分布(Wi,1,Wi,2,...,Wi,m),其中Wi,m表示詞ti與tm之間的互信息。
其中,
其中,函數n(x,x)表示常用詞項的出現次數,ti、tm、tj、tk為常用詞項;
S102:計算任意兩個詞分布之間的余弦,填入詞共現矩陣X。
4.根據權利要求1所述的網絡熱點話題發現方法,其特征在于,所述對詞共現矩陣X進行稀疏非負矩陣分解包括:
S201:對詞共現矩陣X進行分解,X=WWT,W≥0.
S202:隨機初始化非負矩陣W;
S203:令W=W-μ(WWT-X)W,這里μ為給定的正值常量;對W的每一列進行稀疏約束,讓其每一列的12范數在稀疏前后都不變,通過給定的稀疏度s,計算11范數;
S204:重復上一步,直至條件滿足;η為一個極小的正值常量,W為計算得到的值,Wold為已有值;最終得到W與其轉置H構成了詞項-主題矩陣。
5.根據權利要求4所述的網絡熱點話題發現方法,其特征在于,所述S203步驟具體如下:
(1)初始化矩陣W≥0和H≥0;
(2)迭代:
W←PG(W-μW(WH-V)HT),L2-范數不變,L1-范數設置到既定稀疏度;H←PG(H-μHWT(WH-V)),歸一化L2-范數,L1-范數設置到既定稀疏度;
其中,PG表示投影函數;
對矩陣X設定稀疏度的操作方式如下:
(1)設這里,s表示稀疏度,x表述矩陣X的列
(2)設Z={}
(3)迭代:1.設
2.設S=m+α(S-m),α≥0.;
如果S中所有元素都是非負,返回2,結束;
3.設Z=ZU{i,si<0},si=0,
4.計算c=(∑si-L1)/(dim(X)-size(Z));
5.設返回到1;
(4)直到X所有列都映射到既定稀疏度。
6.根據權利要求1所述的網絡熱點話題發現方法,其特征在于,所述對詞共現矩陣X進行稀疏非負矩陣分解包括:
S301:將文檔-主題矩陣P(D,Z)和詞-主題矩陣P(W,Z)作為初始值輸入pLSA,其中,D表示文檔,W表示詞項與前述W是同一個概念,Z表示隱含的主題;在最小熵意義下,對如下表達式進行優化
其中,p(d,w)代表文檔和詞項的聯合概率密度,n(w,d)代表詞項w在文檔d中出現的次數,p(w|z)和p(z|d)代表條件概率密度;
迭代過程如下:
E步:
M步:
經過優化計算得到的文檔-主題矩陣P(D,Z),即為文檔主題分布。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國電子科技集團公司第二十八研究所,未經中國電子科技集團公司第二十八研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710933407.3/1.html,轉載請聲明來源鉆瓜專利網。





