[發明專利]一種網絡輿情話題特征提取方法及系統在審
| 申請號: | 202110040615.7 | 申請日: | 2021-01-12 |
| 公開(公告)號: | CN112926305A | 公開(公告)日: | 2021-06-08 |
| 發明(設計)人: | 李衛紅;劉國慶;劉熠孟;楊孝銳;郭云健;張可文 | 申請(專利權)人: | 華南師范大學 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06F40/284;G06Q50/00 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 郭浩輝;顏希文 |
| 地址: | 511500 *** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網絡 輿情 話題 特征 提取 方法 系統 | ||
1.一種網絡輿情話題特征提取方法,其特征在于,包括:
采用詞頻結合ITF/PDF方法對待測文本語料進行關鍵詞提取;
根據提取的關鍵詞在所述待測文本語料中的共現關系構建共詞網絡;
采用Louvain算法對所述共詞網絡進行社區劃分;
對相鄰時間段所構建的共詞網絡進行話題演化探測得到演化類型時間表;
采用基于事件驅動的方法結合所述演化類型時間表對所述待測文本語料進行話題時空特征提取。
2.根據權利要求1所述的網絡輿情話題特征提取方法,其特征在于,所述采用ITF/PDF的方法對待測文本語料進行關鍵詞提取,具體為:
對所述待測文本語料進行預處理;其中,所述預處理包括分詞處理、詞性標注和過濾停用詞語;
對預處理后的語料進行詞頻統計,篩選出詞頻大于預設詞頻閾值的名詞和動詞作為候選關鍵詞;
采用詞頻結合ITF/PDF方法計算預處理后的待測文本預料中的詞語權重;
從候選關鍵詞篩選出詞語權重大于預設權重閾值的名詞和動詞作為目標關鍵詞。
3.根據權利要求2所述的網絡輿情話題特征提取方法,其特征在于,所述詞頻結合ITF/PDF方法計算權重的公式為:
式中,Weightj為詞語j的權重,N為文檔集包含的文檔數,ni為文檔集中包含詞i的文檔數,n為第j個文檔的詞表大小,tfji為詞語i在文檔j中的頻度。
4.根據權利要求1所述的網絡輿情話題特征提取方法,其特征在于,所述根據提取的關鍵詞在所述待測文本語料中的共現關系構建共詞網絡,具體為:
若判斷提取得到的任意兩個關鍵詞在同一文檔共同出現,則記錄這兩個關鍵詞的共現關系;
統計所述共現關系在所有文檔中出現的次數并構建關鍵詞共現矩陣;
根據所述關鍵詞共現矩陣進行構建共詞網絡。
5.根據權利要求1所述的網絡輿情話題特征提取方法,其特征在于,所述采用基于事件驅動的方法結合所述演化類型時間表對所述待測文本語料進行話題時空特征提取,具體為:
對與所述演化類型時間表中的話題相關的文檔進行時序統計得到時間熱點;
根據所述時間熱點查找事件以及與該事件相對應的地點;
根據所述地點出現的次數進行時空制圖得到所述話題時空特征。
6.一種網絡輿情話題特征提取系統,其特征在于,包括:
關鍵詞提取模塊,用于采用詞頻結合ITF/PDF方法對待測文本語料進行關鍵詞提取;
共詞網絡構建模塊,用于根據提取的關鍵詞在所述待測文本語料中的共現關系構建共詞網絡;
社區劃分模塊,用于采用Louvain算法對所述共詞網絡進行社區劃分;
話題演化探測模塊,用于對相鄰時間段所構建的共詞網絡進行話題演化探測得到演化類型時間表;
時空特征提取模塊,用于采用基于事件驅動的方法結合所述演化類型時間表對所述待測文本語料進行話題時空特征提取。
7.根據權利要求6所述的網絡輿情話題特征提取系統,其特征在于,所述關鍵詞提取模塊具體用于:
對所述待測文本語料進行預處理;其中,所述預處理包括分詞處理、詞性標注和過濾停用詞語;對預處理后的語料進行詞頻統計,篩選出詞頻大于預設詞頻閾值的名詞和動詞作為候選關鍵詞;采用詞頻結合ITF/PDF方法計算預處理后的待測文本預料中的詞語權重;從候選關鍵詞篩選出詞語權重大于預設權重閾值的名詞和動詞作為目標關鍵詞。
8.根據權利要求7所述的網絡輿情話題特征提取系統,其特征在于,所述詞頻結合ITF/PDF方法計算權重的公式為:
式中,Weightj為詞語j的權重,N為文檔集包含的文檔數,ni為文檔集中包含詞i的文檔數,n為第j個文檔的詞表大小,tfji為詞語i在文檔j中的頻度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南師范大學,未經華南師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110040615.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:對放射治療系統進行規劃的方法及射野布置裝置
- 下一篇:電源連接器組件





