[發(fā)明專利]基于Spark Streaming的財(cái)經(jīng)信息情感趨勢(shì)分析方法在審
| 申請(qǐng)?zhí)枺?/td> | 201610026038.5 | 申請(qǐng)日: | 2016-01-15 |
| 公開(公告)號(hào): | CN105701223A | 公開(公告)日: | 2016-06-22 |
| 發(fā)明(設(shè)計(jì))人: | 蔡志平;陳海文 | 申請(qǐng)(專利權(quán))人: | 中國(guó)人民解放軍國(guó)防科學(xué)技術(shù)大學(xué) |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 湖南省國(guó)防科技工業(yè)局專利中心 43102 | 代理人: | 馮青 |
| 地址: | 410073 *** | 國(guó)省代碼: | 湖南;43 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 spark streaming 財(cái)經(jīng) 信息 情感 趨勢(shì) 分析 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及以SparkStreaming為基礎(chǔ),對(duì)財(cái)經(jīng)信息文本進(jìn)行情感趨勢(shì)分析、情感 值計(jì)算的方法。
背景技術(shù)
目前,在許多的應(yīng)用中需要對(duì)文本進(jìn)行情感趨勢(shì)分析,比如微博中的語義分析,在 金融市場(chǎng)中的投資者或者新聞的情感趨勢(shì)分析等,尤其是在財(cái)經(jīng)新聞等大文本信息的情感 趨勢(shì)分析中,由于要求對(duì)文章根據(jù)詞庫(kù)進(jìn)行分詞,而詞庫(kù)又相對(duì)較大,因此實(shí)現(xiàn)時(shí)就要求進(jìn) 行多次循環(huán),使用普通的設(shè)備已經(jīng)無法滿足強(qiáng)大的計(jì)算要求。此外,信息時(shí)代的到來,數(shù)據(jù) 的迅猛增加,使得網(wǎng)絡(luò)文本信息大量涌現(xiàn),如何快速而又及時(shí)地處理該類文本信息,成為一 個(gè)難點(diǎn)。而在當(dāng)今大數(shù)據(jù)時(shí)代,大數(shù)據(jù)處理技術(shù)得到了快速發(fā)展,其中Hadoop、Spark等大數(shù) 據(jù)處理框架得到了快速發(fā)展。但是Hadoop目前只能處理批數(shù)據(jù),無法處理實(shí)時(shí)數(shù)據(jù)。Spark 是一個(gè)分布式的實(shí)時(shí)數(shù)據(jù)處理的優(yōu)秀框架,由于相比Hadoop,它是基于內(nèi)存的計(jì)算框架,避 免了傳統(tǒng)的MapReduce編程模型帶來的巨大的I/O通信開銷瓶頸,目前的大數(shù)據(jù)處理性能在 內(nèi)存中可達(dá)到Hadoop的100倍,在硬盤中的速度也可達(dá)到Hadoop的10倍。
Spark有兩個(gè)關(guān)鍵概念:彈性分布數(shù)據(jù)集(RDD)和有向無環(huán)圖(DAG)執(zhí)行引擎。RDD 是一個(gè)分布式的內(nèi)存抽象。它允許在大型分布式集群上進(jìn)行高容錯(cuò)的內(nèi)存計(jì)算。Spark有兩 種RDD:基于現(xiàn)有編程集合(如map,list等)的并行集合和存儲(chǔ)在HDFS中的文件。對(duì)RDD的操 作分兩種:轉(zhuǎn)換和動(dòng)作。轉(zhuǎn)換是把輸入的RDD或現(xiàn)存的RDD創(chuàng)建出一個(gè)新的數(shù)據(jù)集,動(dòng)作是在 執(zhí)行對(duì)數(shù)據(jù)集的計(jì)算后返回一個(gè)值。相比而言,轉(zhuǎn)換只是定義一個(gè)新的RDD,是一個(gè)惰性操 作,而動(dòng)作執(zhí)行真正的計(jì)算,它能計(jì)算出結(jié)果或?qū)懭胪獠看鎯?chǔ)介質(zhì)。每當(dāng)用戶對(duì)RDD進(jìn)行動(dòng) 作,一個(gè)有向無環(huán)圖會(huì)在考慮所有轉(zhuǎn)換的依賴關(guān)系后生成,它消除了傳統(tǒng)MapReduce的多步 執(zhí)行模型且提升了性能。
Spark也有對(duì)流的實(shí)現(xiàn)。它具有高可擴(kuò)展和高容錯(cuò)的特點(diǎn)。SparkStreaming是將 流式計(jì)算分解成一系列短小的批處理作業(yè)。這里的批處理引擎是Spark,也就是把Spark Streaming的輸入數(shù)據(jù)按照batchsize(如1秒)分成一段一段的數(shù)據(jù)(Discretized Stream),每一段數(shù)據(jù)都轉(zhuǎn)換成Spark中的RDD(ResilientDistributedDataset),然后將 SparkStreaming中對(duì)DStream的Transformation操作變?yōu)獒槍?duì)Spark中對(duì)RDD的 Transformation操作,將RDD經(jīng)過操作變成中間結(jié)果保存在內(nèi)存中。整個(gè)流式計(jì)算根據(jù)業(yè)務(wù) 的需求可以對(duì)中間的結(jié)果進(jìn)行疊加,或者存儲(chǔ)到外部設(shè)備。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是,針對(duì)網(wǎng)絡(luò)財(cái)經(jīng)新聞信息以及各微博、論壇內(nèi)網(wǎng)評(píng) 信息文本信息數(shù)據(jù)量大,分析過程復(fù)雜,計(jì)算要求高等問題,將SparkStreaming技術(shù)應(yīng)用 到文本信息的情感趨勢(shì)處理過程,并根據(jù)財(cái)經(jīng)新聞、微博評(píng)論等文本信息的文章結(jié)構(gòu)特點(diǎn), 將文章進(jìn)行分句,分詞,應(yīng)用自定義的基于語義規(guī)則的分析方法,獲得文章情感值信息,以 達(dá)到快速有效獲得金融文本情感趨勢(shì)的目的。
本發(fā)明的技術(shù)方案是:在財(cái)經(jīng)信息文本的情感趨勢(shì)獲取處理過程中,以Spark Streaming基礎(chǔ),引入時(shí)間窗的方法,實(shí)現(xiàn)每個(gè)時(shí)間實(shí)時(shí)獲取網(wǎng)絡(luò)財(cái)經(jīng)信息情感趨勢(shì),并在 獲取情感趨勢(shì)的文本分析過程中,使用自定義的情感值量化辦法,獲取大文本類財(cái)經(jīng)信息 所表現(xiàn)的情感趨勢(shì),包括數(shù)據(jù)獲取模塊、預(yù)處理模塊、Spark數(shù)據(jù)處理模塊、數(shù)據(jù)存儲(chǔ)模塊,
數(shù)據(jù)獲取模塊獲取指定網(wǎng)站的相關(guān)財(cái)經(jīng)信息,并將財(cái)經(jīng)信息提交到預(yù)處理模塊;預(yù)處 理模塊對(duì)采集到的財(cái)經(jīng)信息文本進(jìn)行初步處理,存入數(shù)據(jù)存儲(chǔ)模塊;Spark數(shù)據(jù)處理模塊對(duì) 預(yù)處理的結(jié)果進(jìn)行分析,針對(duì)財(cái)經(jīng)信息文本內(nèi)容進(jìn)行處理,獲取文本的情感值信息;數(shù)據(jù)存 儲(chǔ)模塊主要存儲(chǔ)、并提供預(yù)處理和Spark處理過程中所產(chǎn)生以及所需要的信息。
所述數(shù)據(jù)獲取模塊,為實(shí)現(xiàn)實(shí)時(shí)性的網(wǎng)絡(luò)文本情感趨勢(shì)分析,采用間隔時(shí)間(30分 鐘或者1小時(shí),甚至更小)的方法對(duì)目標(biāo)網(wǎng)站進(jìn)行定時(shí)數(shù)據(jù)爬取,獲取最新的網(wǎng)絡(luò)文本信息, 提交至預(yù)處理模塊,目標(biāo)網(wǎng)站包括金融財(cái)經(jīng)新聞網(wǎng)站、微博金融評(píng)論、論壇留言等。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)人民解放軍國(guó)防科學(xué)技術(shù)大學(xué),未經(jīng)中國(guó)人民解放軍國(guó)防科學(xué)技術(shù)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610026038.5/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種Spark平臺(tái)性能自動(dòng)優(yōu)化方法
- 一種Spark作業(yè)的提交方法及裝置
- Spark性能優(yōu)化控制方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- spark任務(wù)的提交方法、裝置和服務(wù)器
- Spark任務(wù)的提交方法、系統(tǒng)、客戶端及服務(wù)端
- 一種提交并守護(hù)spark任務(wù)的方法及裝置
- 用戶任務(wù)的處理方法、裝置、電子設(shè)備和計(jì)算機(jī)可讀介質(zhì)
- Spark任務(wù)處理方法及裝置
- 一種Spark應(yīng)用部署管理方法及相關(guān)設(shè)備
- 數(shù)據(jù)處理方法、裝置、電子設(shè)備、存儲(chǔ)介質(zhì)及程序產(chǎn)品
- 一種基于spark streaming的大數(shù)據(jù)流處理方法和系統(tǒng)
- 一種基于大數(shù)據(jù)分布式編程框架的大數(shù)據(jù)預(yù)統(tǒng)系統(tǒng)及方法
- 基于SparkStreaming的智能配電柜、節(jié)能系統(tǒng)及方法
- 讀取RabbitMQ數(shù)據(jù)的方法及裝置
- 用于spark streaming的資源動(dòng)態(tài)分配和反饋方法及裝置
- 監(jiān)控告警系統(tǒng)及方法
- 一種基于Spark_Streaming程序的運(yùn)行環(huán)境控制方法
- 一種數(shù)據(jù)處理方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- Spark Streaming程序的運(yùn)行系統(tǒng)及方法
- Spark批次時(shí)間修改方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 財(cái)經(jīng)媒體業(yè)務(wù)數(shù)據(jù)中心系統(tǒng)
- 一種電視財(cái)經(jīng)融合業(yè)務(wù)提供系統(tǒng)及提供方法
- 一種搜索財(cái)經(jīng)文章的方法、裝置及服務(wù)器
- 一種結(jié)合財(cái)經(jīng)新聞的深度學(xué)習(xí)股市預(yù)測(cè)方法
- 一種實(shí)現(xiàn)財(cái)經(jīng)新聞自動(dòng)關(guān)聯(lián)到股票的方法
- 一種交互理財(cái)系統(tǒng)與方法
- 一種用于確定用戶的關(guān)聯(lián)財(cái)經(jīng)信息的方法與設(shè)備
- 一種用于向用戶提供定制財(cái)經(jīng)信息的方法與設(shè)備
- 信息處理方法、裝置和計(jì)算機(jī)設(shè)備
- 一種財(cái)經(jīng)資訊推送系統(tǒng)及方法





