[發明專利]基于Spark Streaming的財經信息情感趨勢分析方法在審
| 申請號: | 201610026038.5 | 申請日: | 2016-01-15 |
| 公開(公告)號: | CN105701223A | 公開(公告)日: | 2016-06-22 |
| 發明(設計)人: | 蔡志平;陳海文 | 申請(專利權)人: | 中國人民解放軍國防科學技術大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 湖南省國防科技工業局專利中心 43102 | 代理人: | 馮青 |
| 地址: | 410073 *** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 spark streaming 財經 信息 情感 趨勢 分析 方法 | ||
1.基于SparkStreaming的財經信息情感趨勢分析方法,情感趨勢分析過程以Spark Streaming基礎,引入時間窗,實現每個時間實時獲取網絡財經信息情感趨勢,其特征在于, 在獲取情感趨勢的文本分析過程中,使用自定義的情感值量化辦法,獲取大文本類財經信 息所表現的情感趨勢,分析方法的實現包含數據獲取模塊、預處理模塊、Spark數據處理模 塊、數據存儲模塊,
數據獲取模塊獲取財經信息,并將財經信息提交到預處理模塊;預處理模塊對采集到 的財經信息文本進行初步處理,存入數據存儲模塊;Spark數據處理模塊對預處理的結果進 行分析,針對財經信息文本內容進行處理,獲取文本的情感值信息;數據存儲模塊存儲、并 提供預處理和Spark處理過程中所產生以及所需要的信息。
2.根據權利要求1所述的基于SparkStreaming的財經信息文本情感趨勢分析方法,其 特征在于,所述數據獲取模塊采用間隔時間:30分鐘或者1小時的方法對目標網站進行定時 數據爬取,獲取最新的網絡文本信息,提交至預處理階段,目標網站包括金融財經新聞網 站、微博金融評論、論壇留言。
3.根據權利要求1所述的基于SparkStreaming的財經信息文本的情感趨勢分析方法, 其特征在于,所述預處理模塊包括對文章進行打標簽、去重、去冗余,其中,對文章進行打標 簽處理,即通過匹配財經信息文本標題或內容的方式,對財經信息文本所屬金融品種分類 進行鑒定,并為每篇文章建立分類字段,將財經信息文本存入存儲系統的過程中,通過標簽 在一定時間段內的查詢進行去重處理,去冗余,去掉文章內的網頁標簽信息,最終,財經信 息文本存儲到存儲模塊,存儲模塊包含財經信息文本的題目、文章編號Aid、所屬分類Fid、 發表時間Posttime、文章內容Content。
4.根據權利要求1所述的基于SparkStreaming的財經信息情感趨勢分析的方法,其特 征在于,所述park數據處理模塊在對于預處理得到的財經信息文本使用SparkStreaming 技術對數據進行讀取處理,對爬取過來的文本信息使用滑動窗口機制進行讀取處理,每一 個時間單元time定義為10分鐘,每個窗口大小是3倍時間單元,,也就是每個時間窗口是半 個小時,而我們使得窗口每隔一個時間單元,向前滑動一次,這樣,就在一天實時的動態獲 得了每半個小時內的財經信息對金融市場所表現出的情感趨勢,可準確的展示出一天中財 經信息文本所表現出的情感趨勢。
5.根據權利要求4所述的基于SparkStreaming的財經信息情感趨勢分析的方法,其特 征在于,在Spark對數據進行處理階段,使用fid、posttime作為信息聚攏的key,由于Spark 并行處理信息的特性,所以這里不需要像在往常的信息一樣,先將打好標簽的信息進行分 類,并依照時間排序。
6.根據權利要求1所述的基于SparkStreaming的財經信息情感趨勢分析方法,其特征 在于,所述自定義的情感值量化辦法具體內容如下:
應用自定義的中文情感詞詞庫進行分詞,采用情感傾向值聚合的方式,獲取整篇文本 的趨勢傾向,首先將一篇文章按照標點符號:句號、逗號、分號或問號進行截斷,提取每一個 單句中的情感詞匯,句子中的每一個情感詞構成一個情感單元,然后基于中文情感詞詞庫, 獲取每一個情感單元的情感值信息,將每一個句子中的情感單元的情感值進行累加并求平 均,獲得每一個句子的情感值傾向,將所有句子的情感值進行累加并求平均,則獲得整篇文 章的情感值信息,對于沒有情感詞的單句,情感傾向值為0,而對于含有情感詞的句子,對于 句子中的情感單元的情感值信息定義如下規則:
積極情感詞:0.9
否定詞+消極情感詞:0.6
否定詞+積極情感詞:-0.6
消極情感詞:-0.9
每個句子中的情感單元依據上述方式獲得情感值后,通過上面的說明,定義一個時間 段內的關于某一金融品種的情感值為,其情感值為:
式中,表示每個情感單元的值,表示每個單句中的情感詞數量, 代表每個單句的情感值,表示一篇文章中的單句數量。
7.根據權利要求6所述的基于SparkStreaming的財經信息情感趨勢分析方法,其特征 在于,所述自定義的中文情感詞詞庫包括積極情感詞庫、消極情感詞庫以及否定詞詞庫,在 積極情感詞詞庫和消極情感詞詞庫中加入金融類的漲跌詞,比如:漲停、利多、跌停。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍國防科學技術大學,未經中國人民解放軍國防科學技術大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610026038.5/1.html,轉載請聲明來源鉆瓜專利網。





