[發明專利]一種評論觀點主題抽取方法、電子設備及存儲介質有效
| 申請號: | 202010772735.1 | 申請日: | 2020-08-04 |
| 公開(公告)號: | CN112131863B | 公開(公告)日: | 2022-07-19 |
| 發明(設計)人: | 周少龍;馮若凡;余智華;陳欣潔;馮凱 | 申請(專利權)人: | 中科天璣數據科技股份有限公司 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06F40/242;G06F16/35;G06F40/35 |
| 代理公司: | 北京沁優知識產權代理有限公司 11684 | 代理人: | 郭峰 |
| 地址: | 100000 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 評論 觀點 主題 抽取 方法 電子設備 存儲 介質 | ||
本發明提供了一種評論觀點主題抽取方法,包括:采集社交軟件中評論,獲得評論文本;對所述評論文本進行預處理,將評論文本轉換為詞向量,形成文本向量;構建觀點句分類模型,判斷所述評論文本中的句子是否為觀點句;聚類所述觀點句形成觀點主題簇,分別抽取所述觀點主題簇中的關鍵詞作為候選觀點關鍵詞;在所述候選觀點關鍵詞中抽選關鍵詞,并根據詞性選擇核心詞;將與所述核心詞匹配的觀點句生成主題,形成主題候選集;從每個類別的所述主題候選集中選擇一個主題作為最終觀點主題。本發明還提供了電子設備和存儲介質。從評論文本自動抽取觀點主題,以便準確接收網民意見,并判斷是否對社會造成輿論,能夠直觀地了解到社交軟件的相關熱點話題。
技術領域:
本發明涉及信息抽取、關鍵詞抽取與分類技術領域,具體的,涉及一種評論觀點主題抽取方法、電子設備及存儲介質。
背景技術:
互聯網的普及與高速發展,社交軟件作為一種社交信息共享平臺成為網民獲取信息的重要來源,如微博每天信息發布量就達到上億條以上,這些信息中隱藏著社會事件,需要從中挖掘出有效的信息,而這種量級的數據很難通過人工處理的方法及時提取出隱藏在海量數據背后的熱點主題。
社交軟件觀點主題主要是從評論中抽取地信息即能代表網民所表達地意見,同時能夠判斷是否對社會造成輿論,是積極的還是消極的,如能夠直觀的了解到社交軟件的相關熱點話題等。為了提升這一信息抽取的效果,從海量信息中挖掘出熱點話題,對于了解最新的輿論熱點、掌握輿論動向有著重大意義。
信息抽取領域現有工作主要是通過序列標注的方法對待分析評論文本進行觀點主題抽取,而這種方法對于觀點主題沒有完善的標準準則,人工標注無法完成。
因此,本領域亟需一種評論觀點主題抽取方法、電子設備及存儲介質。
有鑒于此,提出本發明。
發明內容:
有鑒于此,本發明的目的在于提供一種評論觀點主題抽取方法、電子設備及存儲介質,以解決現有技術中的至少一項技術問題。
具體的,本發明的第一方面,提供了一種評論觀點主題抽取方法,包括以下步驟:
采集社交軟件中評論,獲得評論文本;
對所述評論文本進行預處理,將評論文本中轉換為詞向量,形成文本向量;
構建觀點句分類模型,判斷所述評論文本中的句子是否為觀點句;
聚類所述觀點句形成觀點主題簇,分別抽取所述觀點主題簇中的關鍵詞作為候選觀點關鍵詞;
在所述候選觀點關鍵詞中抽選關鍵詞,并根據詞性選擇核心詞;
將與所述核心詞匹配的觀點句生成主題,形成主題候選集;
從每個類別的所述主題候選集中選擇一個主題作為最終觀點主題。
采用上述技術方案,將評論文本進行關鍵詞提取,匹配觀點句形成主題,最終從大量的評論文本中自動抽取觀點主題,以便準確接收網民所表達的意見,并判斷是否對社會造成輿論,是積極的還是消極的,能夠直觀地了解到相關熱點話題。
進一步地,所述對所述評論文本進行預處理,將評論文本中轉換為詞向量,形成文本向量包括以下步驟:
對所述評論文本進行分詞、剔除表情符號、去停用詞,形成詞匯;
利用word2vec模型訓練所述評論文本得到n維的詞向量w(c);
計算所述詞匯的TF-IDF權重值w(d);
計算所述評論文本的文本向量w=w(c)*w(d)。
采用上述技術方案,利用文檔詞頻、文檔逆詞頻與詞語內部語義信息構建所述評論文本的向量表示,便于后續建模分析。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中科天璣數據科技股份有限公司,未經中科天璣數據科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010772735.1/2.html,轉載請聲明來源鉆瓜專利網。





