[發(fā)明專利]一種證券市場情緒指數(shù)智能計算信息系統(tǒng)有效
| 申請?zhí)枺?/td> | 202011095683.5 | 申請日: | 2020-10-14 |
| 公開(公告)號: | CN112200674B | 公開(公告)日: | 2022-09-13 |
| 發(fā)明(設(shè)計)人: | 陳實;譚新龍;李玲芳;陳磊;王荻 | 申請(專利權(quán))人: | 上海謙璞投資管理有限公司;西安貝業(yè)思數(shù)據(jù)智能技術(shù)服務(wù)有限公司 |
| 主分類號: | G06Q40/04 | 分類號: | G06Q40/04;G06F40/216;G06F40/289;G06F40/242;G06F16/35 |
| 代理公司: | 上海尚象專利代理有限公司 31335 | 代理人: | 徐炫 |
| 地址: | 200082 上海*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 證券市場 情緒 指數(shù) 智能 計算 信息系統(tǒng) | ||
本發(fā)明公開了一種證券市場情緒指數(shù)智能計算信息系統(tǒng),包含爬蟲模塊、算法模塊和后臺應(yīng)用模塊;爬蟲模塊通過爬蟲與模型架構(gòu),進行數(shù)據(jù)抓取與清洗;算法模塊包含基于情感詞自發(fā)現(xiàn)模型的指數(shù)計算方法模型與基于特征向量修正的指數(shù)計算方法模型;后臺應(yīng)用模塊進行模型任務(wù)調(diào)度和結(jié)果對接。本發(fā)明的系統(tǒng)是一種基于情感詞自發(fā)現(xiàn)和特征向量修正與邏輯回歸模型的金融輿情指數(shù)計算方法的系統(tǒng),克服了克服現(xiàn)有的技術(shù)缺陷,結(jié)合基于特征向量修正的有監(jiān)督機器學(xué)習(xí)算法,來計算金融輿情指數(shù),并在此基礎(chǔ)上完成了證券市場情緒指數(shù)智能計算信息系統(tǒng)的設(shè)計和應(yīng)用。
技術(shù)領(lǐng)域
本發(fā)明涉及一種屬于網(wǎng)絡(luò)輿論的自然語言理解與處理技術(shù)領(lǐng)域的系統(tǒng),具體地,涉及一種證券市場情緒指數(shù)智能計算信息系統(tǒng)。
背景技術(shù)
隨著互聯(lián)網(wǎng)文化產(chǎn)業(yè)的興起,音頻行業(yè)越來越受到人們的重視和喜愛,更多當今社會媒體的發(fā)展導(dǎo)致了金融輿論數(shù)據(jù)的爆炸式增長。因此,針對金融輿論數(shù)據(jù)的情感分析成為金融領(lǐng)域的熱點。行為金融學(xué)提出:非理性股市投資者的心理和行為將會影響股票市場態(tài)勢。而且隨著互聯(lián)網(wǎng)的日益發(fā)展,投資者也更容易通過新聞和股評來獲取投資觀點,或者通過論壇來表達投資情感傾向。新聞和股評也因此影響了投資者心理和行為,從而影響了他們的投資決策,甚至影響了整個市場的行情走勢。
目前,輿情分析應(yīng)用主要分為兩種:基于詞庫的方法和機器學(xué)習(xí)方法,前者屬于無監(jiān)督的文本情感判斷,后者使用有監(jiān)督的分類方法。這兩種方法適用于不同的研究內(nèi)容,基于詞庫的方法更適用于細分的情感判斷(比如快樂和憤怒等),而有監(jiān)督的分類方法應(yīng)用在整體的情感(比如正向、中立和負向三個類別)判斷更能發(fā)揮其優(yōu)勢。
無監(jiān)督的情感判斷主要運用情感詞的相關(guān)信息進行文本情緒的判斷。該方法簡單易行,而且通用性也能夠得到保障,但也存在一定的難點:1.精度不高。語言是一個高度復(fù)雜的東西,采用簡單的線性疊加顯然會造成很大的精度損失。詞語權(quán)重同樣不是一成不變的,而且也難以做到準確;2.新詞發(fā)現(xiàn)。對于新的情感詞,比如辣雞、悶殺等等,詞典不一定能夠覆蓋;3.詞典構(gòu)建難。基于詞典的情感分類,核心在于情感詞典。而情感詞典的構(gòu)建需要有較強的背景知識,需要對語言有較深刻的理解。目前針對金融評論的詞典需要研究者自己挖掘構(gòu)建。
有監(jiān)督學(xué)習(xí)的文本情感分析主要運用貝葉斯模型、支持向量機(SVM)、神經(jīng)網(wǎng)絡(luò)等模型進行情感分類。該類方法需要大量的訓(xùn)練集,同時需要人工對其進行分類標注。該方法需要解決語句長度過長的問題。很多用戶評論都特別長,分詞完后也有幾百個詞語。而序列過長會導(dǎo)致計算復(fù)雜、精度降低等問題。
另外,無論是通過詞庫方式判斷文本情緒,還是通過機器學(xué)習(xí)的方式,都需要通過分詞的方式對文本進行碎片化、向量化處理。用戶評論語句不像新聞那樣規(guī)整,新詞和口語化的詞語特別多。這個問題給分詞和詞向量帶來了很大難度。一般解決方法是分詞方面,建立用戶詞典,從而提高分詞準確度。詞向量方面,對新詞進行增量訓(xùn)練,從而提高新詞覆蓋率。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種基于新型無監(jiān)督特定情感的金融輿情感知方法的系統(tǒng),克服現(xiàn)有的技術(shù)缺陷,結(jié)合基于特征向量修正的有監(jiān)督機器學(xué)習(xí)算法,來計算金融輿情指數(shù),并在此基礎(chǔ)上完成了證券市場情緒指數(shù)智能計算信息系統(tǒng)的設(shè)計和應(yīng)用。
為了達到上述目的,本發(fā)明提供了一種證券市場情緒指數(shù)智能計算信息系統(tǒng),其中,該系統(tǒng)包含爬蟲模塊、算法模塊和后臺應(yīng)用模塊;所述的爬蟲模塊通過爬蟲與模型架構(gòu),進行數(shù)據(jù)抓取與清洗;所述的算法模塊包含基于情感詞自發(fā)現(xiàn)模型的指數(shù)計算方法模型與基于特征向量修正的指數(shù)計算方法模型;所述的后臺應(yīng)用模塊進行模型任務(wù)調(diào)度和結(jié)果對接。
上述的證券市場情緒指數(shù)智能計算信息系統(tǒng),其中,所述的爬蟲模塊,其爬蟲與模型架構(gòu)包含:爬蟲服務(wù)通過scrapy-redis發(fā)布,爬蟲服務(wù)監(jiān)聽redis,等待請求任務(wù)數(shù)據(jù),每個任務(wù)通過azkaban調(diào)度,生成請求url到redis中,觸發(fā)爬蟲服務(wù)執(zhí)行。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海謙璞投資管理有限公司;西安貝業(yè)思數(shù)據(jù)智能技術(shù)服務(wù)有限公司,未經(jīng)上海謙璞投資管理有限公司;西安貝業(yè)思數(shù)據(jù)智能技術(shù)服務(wù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011095683.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種多刀晶圓劈裂裝置及裂片加工方法
- 下一篇:一種紡織印染用烘干裝置
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測目的的數(shù)據(jù)處理系統(tǒng)或方法;其他類目不包含的專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測目的的處理系統(tǒng)或方法
G06Q40-00 金融;保險;稅務(wù)策略;公司或所得稅的處理
G06Q40-02 .銀行業(yè),例如,利息計算、信貸審批、抵押、家庭銀行或網(wǎng)上銀行
G06Q40-04 .交易,例如,股票、商品、金融衍生工具或貨幣兌換
G06Q40-06 .投資,例如,金融工具、資產(chǎn)組合管理或者基金管理
G06Q40-08 .保險,例如,風(fēng)險分析或養(yǎng)老金





