[發明專利]一種智能分析實時新聞對金融市場影響的方法在審
| 申請號: | 201710674605.2 | 申請日: | 2017-08-09 |
| 公開(公告)號: | CN107403017A | 公開(公告)日: | 2017-11-28 |
| 發明(設計)人: | 劉川;梁雪萍 | 申請(專利權)人: | 上海數旦信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 上海三方專利事務所31127 | 代理人: | 吳瑋,李美立 |
| 地址: | 200235 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 智能 分析 實時 新聞 金融市場 影響 方法 | ||
[技術領域]
本發明涉及基于實時新聞的金融市場分析方法技術領域,具體來說是一種智能分析實時新聞對金融市場影響的方法。
[背景技術]
社會中發生的事件、國家政策以及各方各面的信息都對金融市場的情況變化有著極為重要的影響,而這些事件的信息往往都會通過新聞對社會公眾進行發布。現有技術中,主要通過行業分析師撰寫相關領域股票的分析文章,對新聞和金融市場之間的關系進行分析,但往往會受其個人主觀因素的影響,并且也很難及時高效的作出準確的分析,因此,本發明設計了一種技術方案,基于實時新聞信息,對金融市場的變動進行分析。
[發明內容]
本發明的目的在于解決現有技術的不足,提供一種智能分析實時新聞對金融市場影響的方法,排除了分析師主觀因素的影響,通過智能分析能迅速地得出更加準確的分析結果。
為了實現上述目的,設計一種智能分析實時新聞對金融市場影響的方法,其特征在于步驟如下:
a.抓取原始新聞并進行分詞,分詞后按新聞時間將詞劃入不同時間窗并進行詞頻統計,在檢測出主題詞后根據主題詞的相似度將新聞聚類至話題下;
b.評價話題的當前熱度,并建立熱度預測模型對未來熱度進行預測;
c.對新聞中的命名實體進行識別,以得到與話題相關的投資標的;
d.選擇研究話題,判斷研究話題對相關的投資標的的影響是否明顯并量化其影響程度,然后對投資標的的漲跌情況進行分類。
所述的步驟a具體包括:
a1.實時抓取原始新聞,剔除異常的URL地址和異常內容后提取出提取新聞元數據;
a2.將新聞元數據與詞庫中的詞進行逐一匹配,直至將新聞元數據中的所有詞分開,按新聞時間將詞劃入不同的時間窗,對各個時間窗內不同詞的詞頻進行統計,并去掉詞頻最高和最低的詞;
a3.通過詞頻計算各詞在時間窗中的詞頻變化速率,基于詞頻變化速率和詞頻計算詞的熱度,以熱度大于一定值的詞以構成主題詞庫,公式如下:
Vij=Cij/Cijavg
Pij=logVij+K*log(Cij/Cjavg)
其中,Pij表示詞i在時間窗j中的熱度,Vij表示詞i在時間窗j中的變化速率,Cij表示詞i在時間窗j中的詞頻,Cijavg表示詞i在前j-1個時間窗的平均詞頻,Cjavg表示時間窗j內的最高詞頻,K取值在-1~1之間;
a4.將每個新聞的主題詞庫逐一與已有話題的主體詞庫進行相似度比較,將相似的新聞加入已有話題中,并將該新聞的主題詞庫與已有話題的主體詞庫相合并;若不相似,則將該新聞作為一個新話題,并將該新聞的主題詞庫作為新話題的主體詞庫,所述的相似度為新聞詞頻向量和話題詞頻向量之間的歐式距離,所述的新聞詞頻向量和話題詞頻向量由主體詞的詞頻構成,所述的歐式距離小于0.5時判斷新聞和話題相似。
所述的步驟b具體包括:
b1.通過每個話題的熱度因子計算出話題的當前熱度;
b2.建立歷史新聞及新聞話題樣本庫,將樣本庫拆分為訓練集和測試集,基于訓練集得到話題熱度預測模型,并通過話題熱度預測模型預測未來的話題熱度值。
所述的熱度因子包括數量因子、影響力因子、用戶因子和價值因子,
所述的數量因子指話題中新聞的總數量;
所述的影響力因子由話題中新聞的網站來源、作者、是否置頂決定;
所述的用戶因子由話題中新聞的閱讀量、評論、跟帖等用戶反饋決定;
所述的價值因子由話題中新聞的內容的商業價值、市場價值決定;
計算話題當前熱度的公式如下:
話題的當前熱度=K1*數量因子+K2*影響力因子+K3*用戶因子+K4*價值因子,K1、K2、K3、K4均取值為0.25。
所述的話題熱度預測模型通過深度學習方法獲得,以話題的熱度因子作為話題熱度預測模型的輸入參數,以未來的話題熱度值為話題熱度預測模型的輸出參數。
所述的步驟c具體包括:
c1.定義用以區分某個詞是否屬于命名實體的標注集,并對新聞分詞后的文本進行標注,得到標注語料;
c2.建立特征模板,所述的特征模板由命名實體及其詞性、命名實體前兩個詞和命名實體后兩個詞組成;
c3.將特征模板和若干作為訓練語料的標注語料輸入CRF模型,使用最大似然函數估計模型參數:即先對模型取對數,再通過倒數來求得使該對數函數最大化的參數值;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海數旦信息技術有限公司,未經上海數旦信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710674605.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種文件上傳方法及裝置
- 下一篇:航班數據和旅客數據的處理方法及裝置





