[發明專利]一種基于爬蟲采集的情感分類方法及系統在審
| 申請號: | 202011020321.X | 申請日: | 2020-09-25 |
| 公開(公告)號: | CN112182332A | 公開(公告)日: | 2021-01-05 |
| 發明(設計)人: | 徐況;張子龍;李凌悅;范文斌;邢航 | 申請(專利權)人: | 科大國創云網科技有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F40/242;G06F40/289;G06F40/30 |
| 代理公司: | 合肥昊晟德專利代理事務所(普通合伙) 34153 | 代理人: | 顧煒燁 |
| 地址: | 230088 安*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 爬蟲 采集 情感 分類 方法 系統 | ||
本發明公開了一種基于爬蟲采集的情感分類方法及系統,屬于文本信息分析技術領域,包括以下步驟:S1:建立情感分類詞典;S2:分詞操作;S3:關鍵詞提取;S4:依據詞典判斷;S5:根據詞性邏輯判斷及分類;S6:得到情感分類結果。本發明將爬蟲采集的數據進行數據分類,通過情感分類算法,實現對數據的正面、負面、中性三種特性的分類,可用于對新聞報道、商品評論、電影影評等文本信息進行觀點提取、主題分析、情感挖掘中。
技術領域
本發明涉及文本信息分析技術領域,具體涉及一種基于爬蟲采集的情感分類方法及系統。
背景技術
情感分析(Sentiment analysis),又稱傾向性分析,意見抽取(Opinionextraction),意見挖掘(Opinion mining),情感挖掘(Sentiment mining),主觀分析(Subjectivity analysis),它是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程。那么情感分類的主要方法有兩種:基于詞典的方法和基于ML的方法:基于詞典的方法主要通過制定一系列的情感詞典和規則,對文本進行拆句、分析及匹配詞典(一般有詞性分析,句法依存分析),計算情感值,最后通過情感值來作為文本的情感傾向判斷的依據;基于ML方法就是將情感分類當做普通的分類問題。
現有的情感分類方法在使用過程中存在一定的不足:情感分類語言本身復雜,軟硬件技術限制;無法很好地完成文本聚類、關鍵詞提取、實體識別(對于一段文本中,可識別出文本中的主語內容以及主語內容在整個情感分類中的打分)等任務;而且使用上性能差、結構復雜。因此,提出一種基于爬蟲采集的情感分類方法及系統。
發明內容
本發明所要解決的技術問題在于:如何解決現有情感分類方法中存在的分類語言復雜、受到軟硬件技術限制、使用性能不夠好的問題,提供了一種基于爬蟲采集的情感分類方法。
本發明是通過以下技術方案解決上述技術問題的,本發明包括以下步驟:
S1:建立情感分類詞典
定義情感分類詞典,詞典中包括通用詞語以及相應情感分數;
S2:分詞操作
根據用戶輸入的句子,先通過結巴分詞器進行分詞,形成向量詞組;
S3:關鍵詞提取
對向量詞組中的詞提取相應的關鍵詞,并統計該關鍵詞在句子中的頻率;
S4:依據詞典判斷
對向量詞組里的詞逐詞進行判斷,先根據詞性判斷屬于積極還是消極,如果不屬于詞語,直接輸出最終權值;
S5:根據詞性邏輯判斷及分類
如果詞性類別屬于積極,那么檢查前后詞語,如果前一詞語為程度副詞,則權值分加2,如果前一詞語為否定詞/消極詞,則權值分減1;如果后一詞語為消極詞,則權值分減1;其他情況,權值分加1;如果詞性類別屬于消極,那么檢查前一詞語:如果前一詞語為程度副詞,則權值分減2;如果前一詞語為否定詞,則權值分加1;其他情況,權值分減1;
S6:得到情感分類結果
最后輸出各詞的最終權值,計算該句子的情感詞得分,判斷得到該句子的情感分類結果。
更進一步地,在所述步驟S1中,用戶可根據需要選擇是否在情感分類詞典添加自定義詞語。
更進一步地,在所述步驟S3中,統計關鍵詞在句子中出現的頻率的具體過程如下:
S31:獲取關鍵詞整體長度
獲取關鍵詞在整個句子中開始位置索引以及關鍵詞自身的長度,從而獲取到關鍵詞占整個句子的長度;
S32:字符串截取
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于科大國創云網科技有限公司,未經科大國創云網科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011020321.X/2.html,轉載請聲明來源鉆瓜專利網。





