[發明專利]一種應用于股票新聞領域的態度傾向分析方法與系統在審
| 申請號: | 201710307190.5 | 申請日: | 2017-05-02 |
| 公開(公告)號: | CN107122351A | 公開(公告)日: | 2017-09-01 |
| 發明(設計)人: | 李青峰;朱留鋒;榮強;田淑寧;胡楚晗 | 申請(專利權)人: | 燈塔財經信息有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06K9/62 |
| 代理公司: | 深圳市六加知識產權代理有限公司44372 | 代理人: | 嚴泉玉 |
| 地址: | 430000 湖北省武漢市東西*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 應用于 股票 新聞 領域 態度 傾向 分析 方法 系統 | ||
技術領域
本發明屬于互聯網金融技術領域,更具體地,涉及一種應用于股票新聞領域的態度傾向分析方法與系統。
背景技術
隨著國內證券市場的快速發展,中國證券投資者超過1億,90%的投資者為中小散戶。散戶為主的市場投資決策往往受到新聞輿情和機構研報的明顯影響,因此對海量股票新聞的態度傾向性進行自動化分析對于輔助投資決策有重大意義。
目前股票領域傳統的新聞態度標注都是通過人工進行的,效率低下,不足以覆蓋資訊爆發時代日益增長的股票新聞數量。業界對于新聞的自動化態度分析已經有了一些嘗試,大致分為兩類。一類是使用一個正向和負向詞的詞典。句子中每個詞有一個得分,積極情緒的詞+1分,消極情緒詞-1分,然后通過簡單的將句中所有詞的得分加起來的方式得到一個最終的情感總分。這個方法明顯有各種不足,最嚴重的問題是其忽略了語境和上下文詞匯。例如,在我們模型中一個"不好"的短語,由于"不"得到-1分,"好"得到+1分,最后可以得到0分情感。第二類是利用word2vec/doc2vec對詞語或者直接對全文進行向量化標識,然后利用分類器進行訓練得出態度傾向性。此類分類方法的局限性是比較適合分析文本之間的主題相似性,對于一個負面修飾詞就可以逆轉整句態度傾向性的場景的分析效果并不理想。
發明內容
針對現有技術的以上缺陷或改進需求,本發明提供了一種應用于股票新聞領域的態度傾向分析方法與系統,其目的在于通過初始訓練樣本集訓練一個多層LSTM(Long Short-Term Memory,長短期記憶網絡)神經網絡,得到訓練后神經網絡模型,利用訓練后神經網絡模型對待檢測股票新聞標題進行態度傾向屬性的判別,由此解決現有技術中人工標注效率低下和自動標注錯誤率較高的技術問題。
為實現上述目的,按照本發明的一個方面,提供了一種應用于股票新聞領域的態度傾向分析方法,包括:
根據股票新聞標題的態度傾向屬性建立由股票新聞標題構成的初始訓練樣本集,所述態度傾向屬性包括正面、中性以及負面,所述初始訓練樣本集中包括正面、中性以及負面三個初始訓練樣本子集;
對所述初始訓練樣本集中的各股票新聞標題進行預處理得到處理后訓練樣本集,所述預處理包括分詞、數字化以及向量補齊,所述處理后訓練樣本集包括具有相同維度的用于表示各股票新聞標題的數字向量;
建立一個由輸入層、中間層以及輸出層構成的多層LSTM神經網絡,利用處理后訓練樣本集對所述神經網絡進行訓練,得到訓練后神經網絡模型;
利用所述訓練后神經網絡模型對待檢測股票新聞標題進行態度傾向屬性的判別,得到所述待檢測股票新聞標題的態度傾向屬性。
本發明的一個實施例中,所述多層LSTM神經網絡的輸入層為特征表示層,用于將輸入的用于表示各股票新聞標題的數字向量進一步表示為預設維度的特征向量;所述多層LSTM神經網絡的中間層為雙向LSTM層,由預設數量個LSTM單元組成,用于學習所述特征向量的語義特征,所述預設數量為所述預設維度的一半;所述多層LSTM神經網絡的輸出層為一個全連接層,使用sigmoid激活函數,用于輸出一個浮點數值作為整個神經網絡的輸出。
本發明的一個實施例中,所述預處理中的分詞、數字化以及向量補齊,具體為:
將股票新聞標題進行分詞,得到M個詞語,所述M為該股票新聞標題中詞語的數量;
將所述股票新聞標題的每個詞語編碼成一個整數,生成一個由整數編碼組成的M維向量;
將所述M維向量通過右側補零的方式生成具有相同長度的N維向量;所述N為預設值,且M<N。
本發明的一個實施例中,所述方法還包括錯誤樣本的處理和神經網絡模型的優化,具體為:
如果利用所述訓練后神經網絡模型對待檢測股票新聞標題進行態度傾向屬性的判別結果有誤,則將判別有誤的待檢測股票新聞標題標記正確的態度傾向屬性,并加入所述初始訓練樣本集中,重新訓練所述LSTM神經網絡。
本發明的一個實施例中,所述初始訓練樣本集中股票新聞標題的態度傾向屬性通過人工進行標記。
本發明的一個實施例中,所述輸入層生成的特征向量的維度為128,所述中間層中LSTM單元的數量為64。
本發明的一個實施例中,所述正面、中性以及負面三個初始訓練樣本子集中包含的股票新聞標題的數量的差值小于預設值。
按照本發明的另一方面,提供了一種應用于股票新聞領域的態度傾向分析系統,包括初始訓練樣本集生成模塊、訓練樣本集預處理模塊、神經網絡模塊訓練模塊以及態度傾向屬性判別模塊,其中:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于燈塔財經信息有限公司,未經燈塔財經信息有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710307190.5/2.html,轉載請聲明來源鉆瓜專利網。





