[發明專利]一種智能分析實時新聞對金融市場影響的方法在審
| 申請號: | 201710674605.2 | 申請日: | 2017-08-09 |
| 公開(公告)號: | CN107403017A | 公開(公告)日: | 2017-11-28 |
| 發明(設計)人: | 劉川;梁雪萍 | 申請(專利權)人: | 上海數旦信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 上海三方專利事務所31127 | 代理人: | 吳瑋,李美立 |
| 地址: | 200235 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 智能 分析 實時 新聞 金融市場 影響 方法 | ||
1.一種智能分析實時新聞對金融市場影響的方法,其特征在于步驟如下:
a.抓取原始新聞并進行分詞,分詞后按新聞時間將詞劃入不同時間窗并進行詞頻統計,在檢測出主題詞后根據主題詞的相似度將新聞聚類至話題下;
b.評價話題的當前熱度,并建立熱度預測模型對未來熱度進行預測;
c.對新聞中的命名實體進行識別,以得到與話題相關的投資標的;
d.選擇研究話題,判斷研究話題對相關的投資標的的影響是否明顯并分析其影響程度,然后對投資標的的漲跌情況進行分類。
2.如權利要求1所述的一種智能分析實時新聞對金融市場影響的方法,其特征在于所述的步驟a具體包括:
a1.實時抓取原始新聞,剔除異常的URL地址和異常內容后提取出提取新聞元數據;
a2.將新聞元數據與詞庫中的詞進行逐一匹配,直至將新聞元數據中的所有詞分開,按新聞時間將詞劃入不同的時間窗,對各個時間窗內不同詞的詞頻進行統計,并去掉詞頻最高和最低的詞;
a3.通過詞頻計算各詞在時間窗中的詞頻變化速率,基于詞頻變化速率和詞頻計算詞的熱度,以熱度大于一定值的詞以構成主題詞庫,公式如下:
Vij=Cij/Cijavg
Pij=logVij+K*log(Cij/Cjavg)
其中,Pij表示詞i在時間窗j中的熱度,Vij表示詞i在時間窗j中的變化速率,Cij表示詞i在時間窗j中的詞頻,Cijavg表示詞i在前j-1個時間窗的平均詞頻,Cjavg表示時間窗j內的最高詞頻,K取值在-1~1之間;
a4.將每個新聞的主題詞庫逐一與已有話題的主體詞庫進行相似度比較,將相似的新聞加入已有話題中,并將該新聞的主題詞庫與已有話題的主體詞庫相合并;若不相似,則將該新聞作為一個新話題,并將該新聞的主題詞庫作為新話題的主體詞庫,所述的相似度為新聞詞頻向量和話題詞頻向量之間的歐式距離,所述的新聞詞頻向量和話題詞頻向量由主體詞的詞頻構成。
3.如權利要求1所述的一種智能分析實時新聞對金融市場影響的方法,其特征在于所述的步驟b具體包括:
b1.通過每個話題的熱度因子計算出話題的當前熱度;
b2.建立歷史新聞及新聞話題樣本庫,將樣本庫拆分為訓練集和測試集,基于訓練集得到話題熱度預測模型,并通過話題熱度預測模型預測未來的話題熱度值。
4.如權利要求3所述的一種智能分析實時新聞對金融市場影響的方法,其特征在于所述的熱度因子包括數量因子、影響力因子、用戶因子和價值因子,
所述的數量因子指話題中新聞的總數量;
所述的影響力因子由話題中新聞的網站來源、作者、是否置頂決定;
所述的用戶因子由話題中新聞的閱讀量、評論、跟帖等用戶反饋決定;
所述的價值因子由話題中新聞的內容的商業價值、市場價值決定;
計算話題當前熱度的公式如下:
話題的當前熱度=K1*數量因子+K2*影響力因子+K3*用戶因子+K4*價值因子,K1、K2、K3、K4均取值為0.25。
5.如權利要求3所述的一種智能分析實時新聞對金融市場影響的方法,其特征在于所述的話題熱度預測模型通過深度學習方法獲得,以話題的熱度因子作為話題熱度預測模型的輸入參數,以未來的話題熱度值為話題熱度預測模型的輸出參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海數旦信息技術有限公司,未經上海數旦信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710674605.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種文件上傳方法及裝置
- 下一篇:航班數據和旅客數據的處理方法及裝置





