[發明專利]一種展示社交媒體熱點子話題的文本可視化方法有效
| 申請號: | 202110303027.8 | 申請日: | 2021-03-22 |
| 公開(公告)號: | CN113157908B | 公開(公告)日: | 2023-05-02 |
| 發明(設計)人: | 周鋒;王煜輝;李小勇;張玙靜 | 申請(專利權)人: | 北京郵電大學 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34;G06F16/35;G06F40/216;G06F40/284 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 展示 社交 媒體 點子 話題 文本 可視化 方法 | ||
1.一種展示社交媒體熱點子話題的文本可視化方法,其特征在于包括如下步驟:
步驟S101,輸入社交媒體文本語料集,進行數據清洗和停用詞過濾,得到文檔詞項矩陣;
步驟S102,根據詞與詞是否在同一文檔中共同出現計算詞與詞之間的共現后驗概率矩陣;
步驟S103,根據詞與詞之間的共現后驗概率,基于在原始短文本中出現的詞計算未在原始短文本中出現的詞可以填充到該文本中的概率,將概率最大的N個詞填充到原始短文本中完成特征擴展以解決短文本語義稀疏性的問題;
步驟S104,在數據預處理后的語料集上進行文本聚類;
步驟S105,對步驟S104得到的各個文本簇分別提取關鍵短語和關鍵語句;
步驟S106,基于關鍵短語對每個文本簇分別生成詞云圖;
步驟S107,使用維諾圖JavaScript框架FoamTree組合步驟S106生成的各個詞云圖進行文本可視化;
步驟S108,使用JavaScript的事件監聽器監聽到維諾圖的某個區域被點擊時展示對應文本簇的關鍵語句;
步驟S102中計算詞與詞之間共現后驗概率矩陣的方法符合以下公式:
公式中p(wj|wm)表示詞wm出現時詞wj出現的概率,n(wm,di)表示在文檔di中詞wm出現的次數,函數C為統計次數的函數;
步驟S103中計算未在原始短文本中出現的詞可以填充到該文本中的概率符合以下公式:
設語料集詞典的大小為M,詞wj未在原始文檔中出現,公式中vti,j表示詞wj可以填充到文檔di后作為擴展特征的概率,也可以理解為虛擬詞wj對于文檔di的權重,具體的特征擴展方法為如果某個短文檔的詞項個數少于某一閾值,則挑選語料集詞典中未在原始文檔出現的權重最大的若干虛擬詞填充到原始文檔后直到文檔的詞項個數達到閾值。
2.根據權利要求1所述的一種展示社交媒體熱點子話題的文本可視化方法,其特征在于所述步驟S105中提取關鍵語句的方法是判斷文檔向量與聚類中心向量在特征空間的歐式距離,距離越近,語句的權重越大。
3.根據權利要求1所述的一種展示社交媒體熱點子話題的文本可視化方法,其特征在于所述步驟S106中對每個文本簇分別生成詞云圖的具體方法為:基于步驟S105通過依存句法與語義角色標注進行事件三元組抽取提取的關鍵短語或者對于以微博為代表的社交媒體文本,通過提取以井號括起來的關鍵短語來生成詞云圖。
4.根據權利要求1所述的一種展示社交媒體熱點子話題的文本可視化方法,其特征在于所述步驟S107中使用維諾圖JavaScript框架FoamTree組合各個文本簇的詞云圖的具體方法為:將每個文本簇的詞云圖嵌入到維諾圖的不同多邊形區域中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學,未經北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110303027.8/1.html,轉載請聲明來源鉆瓜專利網。





