[發明專利]一種基于行為分析的微博話題表示模型生成方法及裝置在審
| 申請號: | 201811315209.1 | 申請日: | 2018-11-06 |
| 公開(公告)號: | CN109558546A | 公開(公告)日: | 2019-04-02 |
| 發明(設計)人: | 韓偉紅;李樹棟;黃子中;方濱興;賈焰;王樂;周斌;殷麗華;田志宏 | 申請(專利權)人: | 廣州大學 |
| 主分類號: | G06F16/9536 | 分類號: | G06F16/9536;G06Q50/00 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 顏希文;宋靜娜 |
| 地址: | 510000 廣東省廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 行為分析 話題 表示模型 用戶文檔 微博 集合 綜合權重 權重 權重計算 文檔結合 用戶發布 用戶行為 準確度 轉發 外部 評論 分析 發現 | ||
本發明一種基于行為分析的微博話題表示模型生成方法及裝置,該方法包括:步驟S1,將微博用戶發布、轉發及評論的文檔結合在一起生成用戶文檔集合;步驟S2,對用戶文檔集合采用LDA模型生成話題模型;步驟S3,對每個話題的每個詞項,計算基于行為分析的詞項內部權重;步驟S4,對用戶文檔集合中的每個詞項,計算基于行為分析的詞項外部權重;步驟S5,根據得到的權重計算每個話題下每個詞項的基于行為分析的綜合權重;步驟S6,根據獲得的綜合權重對每個話題計算基于行為分析的話題表示模型,本發明通過于話題模型中結合用戶行為因素,可提高后續使用話題模型進行話題發現、演化分析等的準確度。
技術領域
本發明涉及微博話題表示模型技術領域,特別是涉及一種基于行為分析的微博話題表示模型生成方法及裝置。
背景技術
當前,互聯網已逐步演變為無處不在的信息傳播和計算平臺,由此誕生的社交網絡服務應用得到了快速發展,變得越來越流行。越來越多的人使用社交平臺討論內容、發表意見、分享信息等,這就導致每天產生數以億計的信息,如何在這樣的數據規模下快速準確的發現新話題,對信息推薦、輿情控制等方面有著至關重要的作用。而話題發現的基礎研究任務之一就是如何表示話題,任何的話題發現方法都是建立在某一特定話題表示模型的基礎之上,同一話題發現方法在不同的話題表示模型下的效果很可能大相徑庭,所以針對話題表示模型的研究顯得尤為重要。
話題模型自出現以來就成為話題發現、多文檔總結、詞義識別與消歧、情感分析、信息檢索等多個領域的主流技術,這些領域通過話題模型訓練獲取話題,為了使話題更容易被用戶理解,如何選取代表性詞項集合表示話題的問題值得更多關注。
話題在形式上是在詞項上的多項式分布,詞項在每個話題中存在一個確切數值的概率,可以通過最高概率的幾個或十幾個詞項組成的集合表示話題。舉個簡單的例子,下表是話題“體育”、“新聞”和“娛樂”在詞項上的分布,如果選取三個最高概率的詞項組成的集合表示話題,則“體育”話題就可以用{冠軍、比賽、籃球}代表,而“新聞”話題用{總統、演唱會、冠軍}代表,“娛樂”用{演唱會、歌星、冠軍}代表。
表1.話題在詞項上的分布
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州大學,未經廣州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811315209.1/2.html,轉載請聲明來源鉆瓜專利網。





