[發明專利]一種基于行為分析的微博話題表示模型生成方法及裝置在審
| 申請號: | 201811315209.1 | 申請日: | 2018-11-06 |
| 公開(公告)號: | CN109558546A | 公開(公告)日: | 2019-04-02 |
| 發明(設計)人: | 韓偉紅;李樹棟;黃子中;方濱興;賈焰;王樂;周斌;殷麗華;田志宏 | 申請(專利權)人: | 廣州大學 |
| 主分類號: | G06F16/9536 | 分類號: | G06F16/9536;G06Q50/00 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 顏希文;宋靜娜 |
| 地址: | 510000 廣東省廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 行為分析 話題 表示模型 用戶文檔 微博 集合 綜合權重 權重 權重計算 文檔結合 用戶發布 用戶行為 準確度 轉發 外部 評論 分析 發現 | ||
1.一種基于行為分析的微博話題表示模型生成方法,包括如下步驟:
步驟S1,將微博用戶發布、轉發及其評論的文檔結合在一起生成用戶文檔集合;
步驟S2,對生成的用戶文檔集合采用LDA模型生成話題模型;
步驟S3,對用戶文檔集合中每個話題的每個詞項,計算基于行為分析的詞項內部權重;
步驟S4,對用戶文檔集合中的每個詞項,計算基于行為分析的詞項外部權重;
步驟S5,根據步驟S3與步驟S4得到的基于行為分析的詞項內部權重與詞項外部權重計算每個話題下每個詞項的基于行為分析的綜合權重;
步驟S6,根據獲得的每個話題下每個詞項的基于行為分析的綜合權重對每個話題計算基于行為分析的話題表示模型。
2.如權利要求1所述的一種基于行為分析的微博話題表示模型生成方法,其特征在于,于步驟S6后,還包括如下步驟:
步驟S7,根據步驟S6獲得的每個話題的基于行為分析的話題表示模型以及步驟S2采用LDA得出的話題模型對每個話題計算基于行為分析的LDA話題表示,得到最終的話題表示模型。
3.如權利要求2所述的一種基于行為分析的微博話題表示模型生成方法,其特征在于,步驟S2進一步包括:
步驟S200,對用戶文檔集合,采用LDA模型生成文檔-話題模型和話題-詞項模型ρ(θ)LDA;
步驟S201,對用戶文檔集合中的每一個文檔,從LDA模型生成的文檔--話題中選取概率最高的話題作為文檔話題。
4.如權利要求3所述的一種基于行為分析的微博話題表示模型生成方法,其特征在于,步驟S3進一步包括:
步驟S300,根據行為類型分別計算每種行為的詞項的內部權重H(w,θ,b)inside;
步驟S301,根據每種行為的詞項的內部權重H(w,θ,b)inside計算基于行為分析的詞項的內部權重H(w,θ)inside。
5.如權利要求4所述的一種基于行為分析的微博話題表示模型生成方法,其特征在于,所述基于行為分析的詞項內部權重的計算如下:
H(w,θ)inside=σ*H(w,θ,b1)inside+μ*H(w,θ,b2)inside+τ*H(w,θ,b3)inside
其中,H(w,θ,b)inside表示詞項w在話題θ下,行為類型b中的行為內部權重,D(θ,b)表示在話題θ,行為b下的文檔集合,TFwi是詞項w在文檔Di中的出現頻率,TFw是詞項w在行為文檔集合D(θ,b)下所有文檔的頻率之和,σ,μ,τ表示不同行為的權重因子。
6.如權利要求4所述的一種基于行為分析的微博話題表示模型生成方法,其特征在于,步驟S4進一步包括:
步驟S400,根據行為類型分別計算每種行為的詞項的外部權重H(w,b)outside;
步驟S401,根據每種行為的詞項的外部權重H(w,b)outside計算基于行為分析的詞項的外部權重H(w)outside。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州大學,未經廣州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811315209.1/1.html,轉載請聲明來源鉆瓜專利網。





