[發明專利]一種個股公告數據提取的方法及系統在審
| 申請號: | 201811615564.0 | 申請日: | 2018-12-27 |
| 公開(公告)號: | CN109684457A | 公開(公告)日: | 2019-04-26 |
| 發明(設計)人: | 趙岑;陳世敏;馮采;張小平;羅廣超 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F17/22 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 羅滿 |
| 地址: | 10008*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 通用框架 公告數據 配置文件 設置數據 數據提取 提取規則 文本文件 結構化 申請 計算機可讀存儲介質 數據提取規則 預處理操作 程序開發 提取信息 期望 | ||
本申請公開了一種個股公告數據提取的方法,基于通用框架,該方法包括:利用該通用框架對接收到的個股公告進行預處理操作,得到結構化文本文件;根據接收到的配置文件設置數據提取規則;利用該通用框架根據該數據提取規則對該結構化文本文件進行數據提取。本申請提出了一種個股公告數據提取的通用框架,基于此通用框架可以為每種類型的個股公告在配置文件中設置數據提取規則,由通用框架根據配置文件完成數據提取,使得用戶可以根據期望提取信息在配置文件中設置數據提取規則,完成數據提取的目的,極大的減輕了程序開發人員的負擔。本申請同時還提供了一種個股公告數據提取的系統、設備及計算機可讀存儲介質,具有上述有益效果。
技術領域
本申請涉及數據提取領域,特別涉及一種個股公告數據提取的方法、系統、設備及計算機可讀存儲介質。
背景技術
個股公告是上市公司最權威、最及時的信息展示窗口,其內容很可能會對投資者判斷公司基本面,產生重要影響。個股公告中往往包括各類精確、客觀的數據信息,重要時間段及時間節點信息,很多事項的進展、運作、實施的前提條件等。
對于投資者來說,快速準確的獲取到個股公告中的信息顯得尤為重要,而隨著互聯網技術的發展,互聯網上的信息量呈爆炸式增長,個股公告的數量太過龐大,單靠用戶自行閱讀難以完成對所有的個股公告信息進行獲取,基于此,現有技術中基于期望提取信息,為不同類別的個股公告編寫相應的提取腳本,用于提取各類個股公告中的信息。
然而,由于個股公告的類別較多,對于程序開發人員來說,需要針對每一類別編寫相應的提取腳本,使得程序開發效率較低,令程序開發人員的負擔較大。
因此,如何減輕程序開發人員的負擔是本領域技術人員目前需要解決的技術問題。
發明內容
本申請的目的是提供一種個股公告數據提取的方法、系統、設備及計算機可讀存儲介質,用于減輕程序開發人員的負擔。
為解決上述技術問題,本申請提供一種個股公告數據提取的方法,基于通用框架,該方法包括:
所述通用框架對接收到的個股公告進行預處理操作,得到結構化文本文件;
接收輸入的配置文件,并解析所述配置文件得到數據提取規則;
根據所述數據提取規則對所述結構化文本文件進行數據提取。
可選的,所述通用框架對接收到的個股公告進行預處理操作,得到結構化文本文件,包括:
對所述個股公告進行格式統一處理,得到格式統一的文本文件;
對所述格式統一的文本文件進行內容結構化處理,得到所述結構化文本文件。
可選的,對所述格式統一的文本文件進行內容結構化處理,得到所述結構化文本文件包括:
對所述格式統一的文本文件中的文本內容進行初步劃分,得到題目、正文部分、落款部分及附件部分;
以序列號為分隔符按照層級序列號對所述正文部分進行層級劃分,得到各層級文本;
對各所述層級文本進行自然段落的劃分,得到各自然段落;
對各所述自然段落進行語句劃分,得到所述文本文件的結構化文本內容。
可選的,對所述格式統一的文本文件進行內容結構化處理,得到所述結構化文本文件包括:
對所述格式統一的文本文件進行表格識別,并提取出表格內容;
將所述表格內容中的非數字單元作為表頭候選項;
對所述表頭候選項及所述表格內容進行單位識別,得到所述文本文件的結構化表格內容。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811615564.0/2.html,轉載請聲明來源鉆瓜專利網。





