[發明專利]一種網絡輿情話題特征提取方法及系統在審
| 申請號: | 202110040615.7 | 申請日: | 2021-01-12 |
| 公開(公告)號: | CN112926305A | 公開(公告)日: | 2021-06-08 |
| 發明(設計)人: | 李衛紅;劉國慶;劉熠孟;楊孝銳;郭云健;張可文 | 申請(專利權)人: | 華南師范大學 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06F40/284;G06Q50/00 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 郭浩輝;顏希文 |
| 地址: | 511500 *** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網絡 輿情 話題 特征 提取 方法 系統 | ||
本發明提供了一種網絡輿情話題特征提取方法及系統,首先考慮到一般網絡輿情和大規模網絡輿情的差異,本發明方法適用于大規模網絡輿情的話題特征提取;其次,本發明在基于共詞網絡的方法上做了改進,在關鍵詞提取時采用了詞頻結合ITF/PDF的方法,對關鍵詞權重可以做到更準確的刻畫;再次,本發明采用的無閾值的階段間演化網絡方法簡單且能夠保留話題間的細微關聯,符合話題演化邏輯;最后,本發明提出了基于事件驅動的話題時空特征發現方法,以事件的地址標簽去代替文本語料的地址標簽,從而可以匹配文本語料無地址標簽的情況。
技術領域
本發明涉及數據分析技術領域,尤其是涉及一種網絡輿情話題特征提取方法及系統。
背景技術
目前,輿情話題特征提取主要分為兩個步驟,首先是話題識別與提取,第二是話題特征發現。對于第一步話題識別與提取,目前,常用的方法主要包含基于聚類的方法、基于主題模型的方法和基于共詞網絡的方法;對于第二步話題特征發現,內容可以包含兩點,其一是時空特征,其二是演化特征,目前話題時空特征發現方法主要是根據帶地址標簽的文本語料,對地址標簽進行統計并時空制圖;在話題演化特征探測中通常采用的方法是基于共詞網絡的帶閾值的方法。
現有技術的輿情話題特征提取方法存在如下缺點:
首先,現有的輿情話題特征提取方法中未區分一般輿情和大規模輿情,兩種輿情的時間跨度、次生事件、語料規模都存在巨大差異,應該加以區分并采用合適的方法。其次,在話題識別與提取過程中,現有的方法分別存在以下問題,基于聚類的方法具有隨機性,會引入干擾信息影響精度;基于主題模型的方法需要事先確定話題數量,然而大規模網絡輿情跨度大話題多,主題模型的方法會產生話題遺漏的問題;基于共詞網絡的方法雖然能夠呈現科學的認知結構,但是在具體步驟上仍有可以改進的地方,如大多數方法采用詞頻或者是主觀判斷提取關鍵詞,這種關鍵詞提取方法具有主觀性并且對關鍵詞權重刻畫不夠準確。再次,目前采用的話題時空特征發現方法不適用于無地址標簽的數據,并且現有方法反映的是發帖熱點或評論熱點,而不是反映的網民關注點。最后,現有的話題演化探測方法采用的是帶閾值的共詞網絡的方法,通過閾值的設定,過濾了部分話題,因此無法保留關聯度較小的話題關系。
發明內容
本發明旨在提供一種網絡輿情話題特征提取方法及系統,以解決上述技術問題。
為了解決上述技術問題,本發明提供了一種網絡輿情話題特征提取方法,包括:
采用詞頻結合ITF/PDF方法對待測文本語料進行關鍵詞提取;
根據提取的關鍵詞在所述待測文本語料中的共現關系構建共詞網絡;
采用Louvain算法對所述共詞網絡進行社區劃分;
對相鄰時間段所構建的共詞網絡進行話題演化探測得到演化類型時間表;
采用基于事件驅動的方法結合所述演化類型時間表對所述待測文本語料進行話題時空特征提取。
進一步地,所述采用ITF/PDF的方法對待測文本語料進行關鍵詞提取,具體為:
對所述待測文本語料進行預處理;其中,所述預處理包括分詞處理、詞性標注和過濾停用詞語;
對預處理后的語料進行詞頻統計,篩選出詞頻大于預設詞頻閾值的名詞和動詞作為候選關鍵詞;
采用詞頻結合ITF/PDF方法計算預處理后的待測文本預料中的詞語權重;
從候選關鍵詞篩選出詞語權重大于預設權重閾值的名詞和動詞作為目標關鍵詞。
進一步地,所述詞頻結合ITF/PDF方法計算權重的公式為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南師范大學,未經華南師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110040615.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:對放射治療系統進行規劃的方法及射野布置裝置
- 下一篇:電源連接器組件





