[發(fā)明專利]一種期貨領域的投研報告處理方法和系統(tǒng)有效
| 申請?zhí)枺?/td> | 202210927239.8 | 申請日: | 2022-08-03 |
| 公開(公告)號: | CN115358201B | 公開(公告)日: | 2023-06-20 |
| 發(fā)明(設計)人: | 楊勝利;吳福文;康維鵬;唐逐時 | 申請(專利權)人: | 浙商期貨有限公司 |
| 主分類號: | G06F40/186 | 分類號: | G06F40/186;G06F40/289;G06F40/295;G06F40/30;G06F16/215;G06F16/35;G06F16/36;G06F16/84;G06Q40/06 |
| 代理公司: | 杭州創(chuàng)智卓英知識產(chǎn)權代理事務所(普通合伙) 33324 | 代理人: | 唐超文 |
| 地址: | 310000 浙江省杭州市西湖*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 期貨 領域 報告 處理 方法 系統(tǒng) | ||
1.一種期貨領域的投研報告處理方法,其特征在于,所述方法包括:
采集期貨行業(yè)的原始數(shù)據(jù),包括:結構化數(shù)據(jù)、半結構化數(shù)據(jù)和非結構化數(shù)據(jù),其中,所述結構化數(shù)據(jù)可以通過關系型數(shù)據(jù)庫進行管理;
對所述結構化數(shù)據(jù)和所述半結構化數(shù)據(jù),進行預處理,得到第一語義數(shù)據(jù),對所述非結構化數(shù)據(jù)進行預處理及語義結構化處理,得到第二語義知識數(shù)據(jù);
基于所述第一語義知識數(shù)據(jù)和所述第二語義知識數(shù)據(jù),構建期貨結構化基礎數(shù)據(jù)和產(chǎn)業(yè)鏈關聯(lián)圖譜,包括:構建上下游產(chǎn)業(yè)鏈知識信息和構建事件傳導因子關系知識信息,
所述構建上下游產(chǎn)業(yè)鏈知識信息包括:獲取上下游產(chǎn)業(yè)鏈關聯(lián)關系,將文本按照預設窗口長度進行句段劃分,得到用于關系抽取的Context上下文;對所述Context上下文中的實體,依次根據(jù)所述關聯(lián)關系進行關聯(lián)判定,得到所述Context上下文中實體符合所述關聯(lián)關系的成立概率;
所述構建事件傳導因子關系知識信息,包括:識別所述文本中的期貨品種及因子關鍵詞;將所述文本中的事件進行組合得到事件對,并基于所述上下游產(chǎn)業(yè)鏈知識信息、所述因子關鍵詞和所述Context上下文對所述事件對進行關系分類,
其中,采用基于深度學習的TextCNN分類模型進行問句類別劃分,包括:訓練以期貨文本全體實體、分詞、因子關鍵詞為詞表的word2vec預訓練模型,將事件對的上下文Context關聯(lián)文本,和事件對信息轉化為向量表示,對句子進行補0操作,變成等長向量化表示,構建TextCNN模型并迭代訓練,用驗證集進行準確率測試;
根據(jù)所述期貨結構化基礎數(shù)據(jù)和所述產(chǎn)業(yè)鏈關聯(lián)圖譜,自動化進行投研報告選題以及自動化生成投研報告。
2.根據(jù)權利要求1所述的方法,其特征在于,
所述結構化數(shù)據(jù)為關系型數(shù)據(jù),可通過關系型數(shù)據(jù)庫進行存儲和管理;
所述半結構化數(shù)據(jù)為報表數(shù)據(jù),其非關系型數(shù)據(jù)但具備固定的數(shù)據(jù)格式;
所述非結構化數(shù)據(jù)為不具備固定格式的文檔數(shù)據(jù)。
3.根據(jù)權利要求2所述的方法,其特征在于,對所述結構化數(shù)據(jù)和所述半結構化數(shù)據(jù),進行預處理,得到第一語義數(shù)據(jù)包括:
對于所述結構化數(shù)據(jù):對其中的缺失數(shù)據(jù)進行忽略和/或補漏,對其中的重復數(shù)據(jù)進行合并和/或冗余剔除,以及對其中的噪聲數(shù)據(jù)進行平滑處理;
對于所述半結構化數(shù)據(jù),通過Xpath定向抽取模板對所述非結構化數(shù)據(jù)進行抽取,將數(shù)據(jù)表格轉換為可存儲的結構化庫表數(shù)據(jù);
集合所述預處理之后的結構化數(shù)據(jù)和所述結構化庫表數(shù)據(jù),得到所述第一語義知識數(shù)據(jù)。
4.根據(jù)權利要求2所述的方法,其特征在于,所述對所述非結構化數(shù)據(jù)進行預處理包括:
提取所述非結構化數(shù)據(jù)中的文檔對應的內容對象流,對所述內容對象流進行解碼得到標準字符流;
對所述標準字符流進行信息提取得到目標信息,其中,所述目標信息包括:標題信息、事件信息、來源信息、正文文本信息、發(fā)布者信息。
5.根據(jù)權利要求1所述的方法,其特征在于,對所述非結構化數(shù)據(jù)進行語義結構化處理,包括:
對非結構化數(shù)據(jù)中的文本進行分詞,并通過預訓練模型獲取所述文本中各個分詞的實體識別結果;
采用以Transformer為基礎結構的BERT預訓練模型,對所述文本中各個分詞進行分類標記;
通過抽取所述文本中的事件信息,進行事件結構化處理。
6.根據(jù)權利要求5所述的方法,其特征在于,對非結構化數(shù)據(jù)中的文本進行分詞,并通過預訓練模型獲取所述文本中各個分詞的實體識別結果包括:
將文本拆分為多個單字,基于所述單字、所述單字的拼音和筆畫結構,得到所述單字對應的字嵌入向量;
將所述字嵌入向量輸入BiLSTM-CRF模型,通過模型的BiLSTM層輸出每個字嵌入向量對應于各個命名實體的得分;
通過模型的CRF層基于所述得分,采用BI序列標簽體系,輸出所述單詞對應的實體識別結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙商期貨有限公司,未經(jīng)浙商期貨有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210927239.8/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。





