[發明專利]一種基于深度學習的上市公司公告分類及摘要生成方法在審
| 申請號: | 201710255476.3 | 申請日: | 2017-04-19 |
| 公開(公告)號: | CN107403375A | 公開(公告)日: | 2017-11-28 |
| 發明(設計)人: | 段清華;丁海星;鄭錦光;王叢;張夢迪;鮑捷;馬新磊 | 申請(專利權)人: | 北京文因互聯科技有限公司 |
| 主分類號: | G06Q40/04 | 分類號: | G06Q40/04;G06F17/30 |
| 代理公司: | 北京萬科園知識產權代理有限責任公司11230 | 代理人: | 杜澄心,張亞軍 |
| 地址: | 100094 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 上市 公司公告 分類 摘要 生成 方法 | ||
技術領域
本發明涉及一種上市公司公告分類及摘要生成方法。
背景技術
上市公司公告:在證券市場中,上市公司企業需要根據相關監管機構的信息披露制度,定期向社會公開或公告其財務變化、經營狀況等與證券交易有關的重大公司事件,如招股說明書,上市公告書,半年度報告,季度報告,臨時報告等。在我國,滬市與深市每日產生的A股主板公告約有2000多份,新三板每日產生的公告約有2000多份,涵蓋三板與主板所有上市公司企業經營變動信息。對于大部分投資者而言,海量的公告書內容很難完全閱讀分析。同時,由于眾多公告可以根據其發布內容進行類別劃分,而當前并無實際有效的公告分類標準去依據實行。
因此,對于投資者來說,依據目前的上市公司公告,閱讀分析判斷具體事項的效率很低。
現有的文本摘要生成:文本摘要是一種通過計算文檔中段落句子的句法特征、語義特征以及統計特征,自動提取關鍵信息,生成摘要的技術。常見的文本摘要技術包括基于詞頻打分的特征統計方法,如TF*IDF。以及基于傳統機器學習的方法,使用分類模型對文檔中的句子進行有監督分類,找出權重比較高,可以作為摘要的句子,如基于樸素貝葉斯方法的分類模型、基于聚類的分類模型,以及基于LDA的分類模型。由于有監督分類方法需要大量的標注數據作為訓練集,而目前的上市公司企業公告內容繁雜,不同的人判斷標準無法統一,因此基于機器學習的文本摘要方法仍需要不斷探索提高。
深度學習是機器學習的一個分支,采用深度神經網絡等框架,實際應用中,在計算機視覺、語音識別、自然語言處理、音頻識別與生物信息學等領域獲取了極好的效果。LSTM網絡(Long-Short Term Memory Network)是一種經過改良處理的RNN(Recurrent Neural Network)深度神經網絡學習方法,在1997年被Hochreiter&Schmidhuber首次提出,目前已經在語音識別,機器翻譯,和自然語言處理領域取得了多項突破進展。LSTM網絡有效的解決了RNN網絡中可能會有的梯度消失、梯度爆炸導致訓練收斂困難的缺點,尤其在針對序列數據(Sequence)時,由于LSTM具有記憶性(Memory),對上下文的理解要優于傳統機器學習算法,因此在分類效果方面有極大的提高。序列數據是一種連續的、對上下文依賴比較強的數據文本序列,如語音信號、視頻信號、時間序列、文本序列等。
發明內容
本發明的目的是提供一種基于深度學習的上市公司公告分類及摘要生成方法,針對證券市場中,上市公司企業根據監管機構要求發布的各類公告文檔,解決針對每天產生的大量公告信息,自動對公告進行分類,并根據分類情況自動提取關鍵重要信息,生成摘要內容等技術問題。
為了實現上述發明目的,本發明所采用的方法如下:
步驟1、獲取公告原文數據,提取文字、圖片、表格信息,建立結構化文檔。包括公告獲取、公告轉換、結構化處理、內容提取流程步驟。
步驟2、基于公告領域行業知識,根據各種公司經營變動事件關鍵字區別,建立不同公告分類規則詞庫,統計判斷公告類別,包括關鍵字統計、詞庫建立、公告分類;
步驟3、針對不同分類的公告,提取公告文檔內容,結合相應分類關鍵字規則詞庫,訓練公告內容分類模型,自動生成文檔摘要內容,包括內容提取、訓練集選取、關鍵字優化模型、模型訓練、模型測試、結果分析、內容生成。
所述提取流程步驟:
步驟1-1,獲取公告數據,選擇可公開獲取的公告進行分類及摘要處理根據證券市場信息披露的情況,
步驟1-2,判斷是否結構化數據,,根據獲取到的數據進行選擇判斷,對于不同類型的數據,做對應的分析處理;
步驟1-3,數據清洗,,當獲取到的數據為結構化數據時,根據后續模型的處理需要,對該類數據進行特定內容的重新提取分類處理,并與原始公告建立關聯,存儲于統一的公告數據庫中;
步驟1-4,文本轉換,,對于未經結構化處理的原始公告文檔,需要對文檔進行有效內容提取;
步驟1-5,結構化處理,對于步驟1-1至步驟1-4提取出的有效文字段落、圖表、圖,結合文檔中的原數據信息,依據事先設計好的數據結構,對該類文本進行統一處理,生成算法程序可識別處理的結構化數據。
所述建立規則詞庫與公告分類流程:
步驟2-1,公告領域關鍵詞,通過分析證券市場投資人員關注點,選擇涵蓋公告重點的詞組作為某領域公告關鍵區分詞;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京文因互聯科技有限公司,未經北京文因互聯科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710255476.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種數據處理方法及裝置
- 下一篇:一種數據信息的處理方法及裝置





