[發明專利]一種評論觀點主題抽取方法、電子設備及存儲介質有效
| 申請號: | 202010772735.1 | 申請日: | 2020-08-04 |
| 公開(公告)號: | CN112131863B | 公開(公告)日: | 2022-07-19 |
| 發明(設計)人: | 周少龍;馮若凡;余智華;陳欣潔;馮凱 | 申請(專利權)人: | 中科天璣數據科技股份有限公司 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06F40/242;G06F16/35;G06F40/35 |
| 代理公司: | 北京沁優知識產權代理有限公司 11684 | 代理人: | 郭峰 |
| 地址: | 100000 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 評論 觀點 主題 抽取 方法 電子設備 存儲 介質 | ||
1.一種評論觀點主題抽取方法,其特征在于,包括以下步驟:
采集社交軟件中評論,獲得評論文本;
對所述評論文本進行預處理,將評論文本轉換為詞向量,形成文本向量;
構建觀點句分類模型,判斷所述評論文本中的句子是否為觀點句;
聚類所述觀點句形成觀點主題簇,分別抽取所述觀點主題簇中的關鍵詞作為候選觀點關鍵詞;
在所述候選觀點關鍵詞中抽選關鍵詞,并根據詞性選擇核心詞;
將與所述核心詞匹配的觀點句生成主題,形成主題候選集;
從每個類別的所述主題候選集中選擇一個主題作為最終觀點主題。
2.根據權利要求1所述的評論觀點主題抽取方法,其特征在于:所述對所述評論文本進行預處理,將評論文本轉換為詞向量,形成文本向量包括以下步驟:
對所述評論文本進行分詞、剔除表情符號、去停用詞,形成詞匯;
利用word2vec模型訓練所述評論文本得到n維的詞向量;
計算所述詞匯的TF-IDF權重值;
計算所述評論文本的文本向量。
3.根據權利要求2所述的評論觀點主題抽取方法,其特征在于:所述構建觀點句分類模型,判斷所述評論文本中的句子是否為觀點句,包括以下步驟:
采用貝葉斯網絡模型對已標注好的評論數據進行分類訓練,標注觀點句和非觀點句,構建觀點句分類模型;
將所述評論文本進行分句,形成評論句;
將所述評論句作為所述觀點句分類模型的輸入,判斷是否為觀點句。
4.根據權利要求3所述的評論觀點主題抽取方法,其特征在于:所述構建觀點句分類模型,判斷所述評論文本中的句子是否為觀點句還包括以下步驟:
采用情感詞典對未分類的所述評論句進行初步判斷,對每個評論句進行情感得分標注;
對所述評論句情感得分的絕對值低于閾值的評論句剔除。
5.根據權利要求1-4任一項所述的評論觀點主題抽取方法,其特征在于:采用情感詞典對未分類的所述評論句進行初步判斷,對每個評論句進行情感得分標注包括以下步驟:
將所述評論句中表情符號提取,對照預設的表情符號詞典,對所述評論句的情感得分進行相加或加權。
6.根據權利要求5所述的評論觀點主題抽取方法,其特征在于:所述聚類所述觀點句形成觀點主題簇,分別抽取所述觀點主題簇中的關鍵詞作為候選觀點關鍵詞包括以下步驟:
采用K-means聚類方法進行預設類別個數進行聚類,形成主題觀點集合;
采用TF-IDF與語義網絡方法分別對每類主題的觀點句進行抽取關鍵詞;
形成多個類別的候選觀點關鍵詞集。
7.根據權利要求6所述的評論觀點主題抽取方法,其特征在于:所述在所述候選觀點關鍵詞中抽選關鍵詞,并根據詞性選擇核心詞包括以下步驟:
從所述候選觀點關鍵詞集中選擇動詞、名詞詞性的詞匯形成待選關鍵詞集;
利用TextRank算法在所述待選關鍵詞集中進行關鍵詞提取,選擇超過權重閾值的若干個關鍵詞為核心詞。
8.根據權利要求7所述的評論觀點主題抽取方法,其特征在于:所述將與所述核心詞匹配的觀點句生成主題,形成主題候選集包括以下步驟:
選擇核心詞中詞性為名詞且權值最大的詞匯為話題核心詞;
采集與所述話題核心詞匹配的觀點句,作為主題句;
在主題句中截取從所述話題核心詞到其后最近標點符號之間的短語句,作為侯選主題;
選擇候選主題中出現次數最高的短語句作為預選主題;
將所述預選主題分詞并標注詞性,剔除無用詞性的詞,得到的字符串為最終觀點主題。
9.一種電子設備,其特征在于,所述電子設備,其特征在于包括存儲器及處理器,所述存儲器上至少有一條指令,所述至少一條指令由所述處理器加載并執行,以實現如權利要求1-8任一項所述的評論觀點主題抽取方法。
10.一種計算機可讀存儲介質,其特征在于,所述存儲介質上存儲至少一條指令,所述至少一條指令由處理器加載并執行,以實現如權利要求1-8任一項所述的評論觀點主題抽取方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中科天璣數據科技股份有限公司,未經中科天璣數據科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010772735.1/1.html,轉載請聲明來源鉆瓜專利網。





