[發(fā)明專利]一種證券市場情緒指數(shù)智能計算信息系統(tǒng)有效
| 申請?zhí)枺?/td> | 202011095683.5 | 申請日: | 2020-10-14 |
| 公開(公告)號: | CN112200674B | 公開(公告)日: | 2022-09-13 |
| 發(fā)明(設計)人: | 陳實;譚新龍;李玲芳;陳磊;王荻 | 申請(專利權)人: | 上海謙璞投資管理有限公司;西安貝業(yè)思數(shù)據(jù)智能技術服務有限公司 |
| 主分類號: | G06Q40/04 | 分類號: | G06Q40/04;G06F40/216;G06F40/289;G06F40/242;G06F16/35 |
| 代理公司: | 上海尚象專利代理有限公司 31335 | 代理人: | 徐炫 |
| 地址: | 200082 上海*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 證券市場 情緒 指數(shù) 智能 計算 信息系統(tǒng) | ||
1.一種證券市場情緒指數(shù)智能計算信息系統(tǒng),其特征在于,該系統(tǒng)包含爬蟲模塊、算法模塊和后臺應用模塊;
所述的爬蟲模塊通過爬蟲與模型架構,進行數(shù)據(jù)抓取與清洗;
所述的算法模塊包含基于情感詞自發(fā)現(xiàn)模型的指數(shù)計算方法模型與基于特征向量修正的指數(shù)計算方法模型;
所述的后臺應用模塊進行模型任務調度和結果對接;
所述的基于情感詞自發(fā)現(xiàn)模型的指數(shù)計算方法,包含:
步驟1、利用已有財經(jīng)類相關詞語資料構建初始金融詞典,作為文本分詞的輸入;
步驟2、從新增的股票評論數(shù)據(jù)里隨機抽取樣本并進行數(shù)據(jù)清洗;
步驟3、結合金融詞典利用jieba分詞包對樣本數(shù)據(jù)進行帶有詞性的中文分詞以及去除停用詞處理;
步驟4、對步驟3的輸出使用新詞發(fā)現(xiàn)算法,計算每個候選詞的分值,按分值大小取topN個詞,與已有金融詞典里的詞進行去重處理后形成一個新詞的候選詞表;
步驟5、利用步驟3的輸出結果對預訓練好的Word2vec模型進行增量訓練;
步驟6、從候選詞表和情感詞表進行人工干預過濾掉不構成詞語的詞,并對成詞的詞標注為相應的詞性;
步驟7、利用更新后的金融詞典對新的評論數(shù)據(jù)和基于詞庫的模型計算每個細分情感的分值;
步驟8、在計算完每篇文本的情感得分后,計算在時刻t針對每只股票i的情感值;
步驟9、如果需要進一步計算某個大盤指數(shù)在情感上的分值,則進一步進行計算;
所述的步驟7,計算每個細分情感的分值,恐懼情緒指數(shù)的計算方法為:包含:
步驟7.1、對股票i的評論文本j進行帶有詞性的分詞后統(tǒng)計恐懼情感詞的個數(shù),記為Nij,文本的總詞數(shù)記為Cij,同時統(tǒng)計積極詞pos和消極詞neg的個數(shù),記為和并計算各自在文本中的占比,計算公式為:
其中,恐懼情感詞是消極詞的一個子集,即
步驟7.2、為了防止由于文章長度越長得分越高,即發(fā)生膨脹,同時保證指數(shù)可在同一標準下進行比較,通過一個sigmoid函數(shù)將情緒值轉換為[0,1]的取值,公式為:
步驟7.3、最后對情緒值進行一次取值范圍調整,因為pij的最大取值為2/3,且當文本中全是積極詞的時候pij的取值無法反映投資者沒有恐懼情緒的事實;恐懼情緒的最終取值為:
當pij越接近0表示文本反映出的情緒越積極,即越?jīng)]有恐懼情緒;反之,越接近1表示恐懼情緒越強烈;
所述的基于特征向量修正的指數(shù)計算方法,包含:
S1、從新增的股票評論數(shù)據(jù)里隨機抽取一定量的樣本并進行數(shù)據(jù)清洗;
S2、結合金融詞典利用jieba分詞包對樣本數(shù)據(jù)進行帶有詞性的中文分詞以及去除停用詞處理;
S3、對S2的輸出使用新詞發(fā)現(xiàn)算法計算每個候選詞的分值,按分值大小取topN個詞,與已有金融詞典里的詞進行去重處理后形成一個新詞的候選詞表;
S4、利用S2的輸出結果對預訓練好的Word2vec模型進行增量訓練;
S5、在清洗后的數(shù)據(jù)中,隨機挑選部分文本,人工標注其情感類別,作為構建模型訓練的訓練集和測試集;
S6、在做分詞之前,對文本中的有用信息進行統(tǒng)計;
S7、對分詞后的詞語保留特定詞性的詞,在人工標注的積極樣本中利用TF-IDF進行篩選和構建詞向量;
S8、結合S6和S7中得到的統(tǒng)計量共同構成特征向量作為模型訓練的數(shù)據(jù),再進一步將其隨機分為訓練集和測試集,然后利用邏輯回歸模型訓練;
S9、如果需要進一步計算某個大盤指數(shù)在情感上的分值,則進一步進行計算;
所述的S8中,在邏輯回歸模型訓練好后,對新的評論文本i采取同樣的處理流程獲取一樣格式的特征向量,調用模型參數(shù)預測其情感得分,記為pi,取值為[0,1],越接近于0表示越消極,越接近于1表示情緒越積極;然后計算股票s在時間段t的情緒,公式為:
其中,m是最新計算的情緒的權重,wj是每篇評論文本的權重,默認為1,用文本長度、作者的關注度即影響力計算該權重;
是前h期的情感平均值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海謙璞投資管理有限公司;西安貝業(yè)思數(shù)據(jù)智能技術服務有限公司,未經(jīng)上海謙璞投資管理有限公司;西安貝業(yè)思數(shù)據(jù)智能技術服務有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011095683.5/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種多刀晶圓劈裂裝置及裂片加工方法
- 下一篇:一種紡織印染用烘干裝置
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預測目的的數(shù)據(jù)處理系統(tǒng)或方法;其他類目不包含的專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預測目的的處理系統(tǒng)或方法
G06Q40-00 金融;保險;稅務策略;公司或所得稅的處理
G06Q40-02 .銀行業(yè),例如,利息計算、信貸審批、抵押、家庭銀行或網(wǎng)上銀行
G06Q40-04 .交易,例如,股票、商品、金融衍生工具或貨幣兌換
G06Q40-06 .投資,例如,金融工具、資產組合管理或者基金管理
G06Q40-08 .保險,例如,風險分析或養(yǎng)老金





