[發明專利]一種主體話題態度指數的計算方法有效
| 申請號: | 202011594672.1 | 申請日: | 2020-12-29 |
| 公開(公告)號: | CN112612895B | 公開(公告)日: | 2021-12-07 |
| 發明(設計)人: | 陳中正;王元卓;程伯群;趙俊霞;胡玉龍;劉玉茹;程松慶;王紅強;雍勝凱 | 申請(專利權)人: | 中科院計算技術研究所大數據研究院 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/335;G06F40/205;G06F40/242;G06F40/58;G06Q50/00 |
| 代理公司: | 鄭州明華專利代理事務所(普通合伙) 41162 | 代理人: | 高麗華 |
| 地址: | 450000 河南省鄭州*** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 主體 話題 態度 指數 計算方法 | ||
本發明屬于網絡信息挖掘技術領域,具體涉及一種主體話題態度指數計算方法。該方法通過采集相關主體的傳統媒體、社交數據,然后對數據進行預處理,通過情感分析建模、話題態度指數建模,建立話題態度分析模型,進而分析話題態度指數。通過多層次、多角度的分析目標主體的話題態度指數,能夠宏觀的反映了國家、地區、主體的話題態度,客戶可方便的進行宏觀把控,逐級深入。
技術領域
本發明屬于網絡信息挖掘技術領域,具體涉及一種主體話題態度指數計算方法。
背景技術
隨著信息技術不斷發展,新聞客戶端和各類社交媒體成為公眾特別是年輕人的第一信息源,但由于信息量龐大繁雜,通過文章分析總結提煉有用的信息成為一種常用的手段。
目前分析主要是對單個文章的情感分析,這種分析方法存在如下弊端:
1、單文章分析缺少話題識別,很難有針對性分析;
2、單文章分析比較片面,缺少主體的整體分析及主體的層次分析。
發明內容
針對目前主體話題分析方法存在缺少識別度、分析較為片面無法整體分析的缺陷和問題,本發明提供一種主體話題態度指數計算方法。
本發明解決其技術問題所采用的方案是:一種主體話題態度指數的計算方法,包括以下步驟,
步驟一、數據采集:采集時間段內全球范圍的文章,采用流式文本處理single-pass單遍聚類方法對文章的話題進行分類;
步驟二、數據預處理:包括以下步驟:
(1)收集時間段內全球范圍針對某一話題的文章信息數據,其中信息數據包括百科數據、社交媒體數據和傳統媒體數據;
(2)基于URL將文章信息數據中的重復數據濾除,同時基于簡單關鍵詞規則進行非話題內容和垃圾內容的過濾;
(3)對全球多來源的文章信息數據進行自動語種識別并將其統一翻譯成英語;
(4)對文章信息數據進行文本分析,將其形成包括分詞、關鍵詞抽取、主體抽取、基本情感分析的標簽;并同時提取報道的歸屬地和報道地;
(5)將提取的主體、報道地與基礎知識庫進行鏈接,采用一致ID進行標識;
步驟三、對文章信息數據進行情感分析,包括以下步驟:
(1)對信息數據的情感分類進行設計,分為正面、中立和負面;
(2)根據情感分類的每一類情感構建英文話題情感詞典;
(3)根據情感分類構建具有規模的真實語料,并對語料中的每篇文章進行話題態度標注;
(4)根據構建的不同情感的情感詞典和情感語料構建面向話題態度分析的情感分析模型;
步驟四、計算話題態度指數,包括以下步驟:
(1)根據情感分析模型對時間段內針對該話題的每篇文章的內容進行情感打分,得到單篇文章態度得分和文章話題態度得分;
單篇文章態度得分score=∑(k-score*k-num/num)
式中:k-score為句子情感分類得分,一篇文章分很多句子,每個句子都有自己情感類型,類型包括:Strongly Positive(1)、Weakly Positive(0.7)、Neutral(0)、StronglyNegative(-1)、Weakly Negative(-0.7);num是文章分句數量,k-num/num是各項分類數據占句數比例。
文章話題態度得分=Sigmoid(單篇文章態度得分*文章權重)*100
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中科院計算技術研究所大數據研究院,未經中科院計算技術研究所大數據研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011594672.1/2.html,轉載請聲明來源鉆瓜專利網。





