[發明專利]一種微博熱點話題的情感傾向分析方法在審
| 申請號: | 201910540279.5 | 申請日: | 2019-06-21 |
| 公開(公告)號: | CN110297986A | 公開(公告)日: | 2019-10-01 |
| 發明(設計)人: | 徐建國;藺珍;肖海峰;韓青君 | 申請(專利權)人: | 山東科技大學 |
| 主分類號: | G06F16/9536 | 分類號: | G06F16/9536;G06F16/33;G06F16/35 |
| 代理公司: | 北京匯捷知識產權代理事務所(普通合伙) 11531 | 代理人: | 馬金華 |
| 地址: | 266590 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 微博 情感傾向 熱點話題 多元分類模型 情感信息 文本情感 話題 抽取 情感傾向性分析 采集 多元分類 情感分類 實時響應 文本信息 分析 詞語 文本 響應 主觀 | ||
本發明公開了一種微博熱點話題的情感傾向分析方法,根據指定的話題,采集話題的文本信息;抽取與微博熱點話題相關的主觀微博評價詞語情感信息;在情感分類過程中,為提高微博文本情感多元分類的準確性,提出的基于SVM?BILSTM的微博文本情感多元分類模型;最后根據前面的分析及結果做出情感傾向性分析。本發明的有益效果是通過指定話題采集文本,抽取情感信息,利用情感多元分類模型能夠實時響應輿情事件情感傾向,提高輿情事件的響應速度,更快捷高效。
技術領域
本發明屬于數據處理技術領域,涉及一種微博熱點話題的情感傾向分析方法。
背景技術
微博熱點話題的情感傾向分析模型,主要包含網絡信息采集技術,數據預處理過程中使用的中文分析及詞性標注方法,文本的特征表示、特征提取及文本分類方法,最后是深度學習中的長短期記憶神經網絡算法。網絡信息采集技術(Network InformationCollection Technology),是一種按照一定的規則自動采集互聯網上數據信息的計算機技術。通常以一個或者多個初始URL為起點,通過各類端口發送按照http協議格式的抓取指令采集網頁中的信息[24]。如此重復循環,對互聯網信息進行遍歷搜索,直到采集到所有的數據為止。對于不同的媒體類型,其輿情信息的采集方式也有所差異,從輿情信息最易爆發的角度來看,主要集中在新聞、微博、論壇三大媒體。中文分詞(Chinese Word Segmentation)就是在分析中文文本之前必須將一個漢字序列切分成一個個單獨的詞的過程,詞性標注(Part-of-Speech Tagging)指判斷出在一個句子中每個詞所扮演的語法角色。文本表示(Text representation)是指通過某種形式將文本字符串表示成計算機所能處理的數值向量。因為計算機不能直接對文本字符串進行處理,因此需要將本文中抽取出來的特征詞進行數值化或者向量化使得計算機能夠識別和處理。文本分類(Text Categorization)指的是在給定的分類體系下將每個文本自動分配到預先定義好的類中,文本分類的主要數據來源是非結構化的文本,即可以通過一個分類器將給定的文本分配到相應類別的過程。LSTM(Long Short Term Memory)是循環神經網絡(Recurrent Neural Network,RNN)結構的一種,由輸入層、隱藏層、輸出層構成,LSTM網絡模型將傳統RNN的輸入層和隱藏層植入到記憶單元中,記憶單元中包含特殊的門結構,即輸入門、遺忘門和輸出門來控制信息的流通,只有符合算法認證的信息才會被留下,不符的信息則通過遺忘門被遺忘,LSTM模型涉及的計算比較多,也比較復雜,所以對信息的處理更靈活,也更強大,適合于處理和預測時間序列中間隔相對較久的事件和延遲相對較長的重要事件。在實際應用中,因為語言有長期依賴關系,RNN模型不擅長捕捉和保留之前的所有信息,存在長期依賴的問題,而LSTM可以解決解決上述問題。LSTM已經在語音識別、圖像識別、控制聊天機器人等科技領域有了多種應用。現有的微博熱點情感傾向分析一般都有滯后性。
發明內容
本發明的目的在于提供一種微博熱點話題的情感傾向分析方法,本發明的有益效果是通過指定話題采集文本,抽取情感信息,利用情感多元分類模型能夠實時響應輿情事件情感傾向,提高輿情事件的響應速度,更快捷高效。
本發明所采用的技術方案是按照以下步驟進行:
A、微博熱點話題的數據獲取與預處理;根據指定的話題,采集話題的文本信息;
B、抽取與微博熱點話題相關的主觀微博評價詞語情感信息;情感信息抽取過程中,為提高獲取的情感信息的質量,結合TF-IDF-COS與SVM算法改進了微博情感信息抽取模型,來抽取與微博熱點話題相關的主觀微博評價詞語情感信息的抽取;
C、在情感分類過程中,為提高微博文本情感多元分類的準確性,提出的基于SVM-BILSTM的微博文本情感多元分類模型;
D、最后根據前面的分析及結果做出情感傾向性分析。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東科技大學,未經山東科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910540279.5/2.html,轉載請聲明來源鉆瓜專利網。





