[發明專利]一種個股公告數據提取的方法及系統在審
| 申請號: | 201811615564.0 | 申請日: | 2018-12-27 |
| 公開(公告)號: | CN109684457A | 公開(公告)日: | 2019-04-26 |
| 發明(設計)人: | 趙岑;陳世敏;馮采;張小平;羅廣超 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F17/22 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 羅滿 |
| 地址: | 10008*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 通用框架 公告數據 配置文件 設置數據 數據提取 提取規則 文本文件 結構化 申請 計算機可讀存儲介質 數據提取規則 預處理操作 程序開發 提取信息 期望 | ||
1.一種個股公告數據提取的方法,其特征在于,基于通用框架,所述方法包括:
所述通用框架對接收到的個股公告進行預處理操作,得到結構化文本文件;
接收輸入的配置文件,并解析所述配置文件得到數據提取規則;
根據所述數據提取規則對所述結構化文本文件進行數據提取。
2.根據權利要求1所述的方法,其特征在于,所述通用框架對接收到的個股公告進行預處理操作,得到結構化文本文件,包括:
對所述個股公告進行格式統一處理,得到格式統一的文本文件;
對所述格式統一的文本文件進行內容結構化處理,得到所述結構化文本文件。
3.根據權利要求2所述的方法,其特征在于,對所述格式統一的文本文件進行內容結構化處理,得到所述結構化文本文件包括:
對所述格式統一的文本文件中的文本內容進行初步劃分,得到題目、正文部分、落款部分及附件部分;
以序列號為分隔符按照層級序列號對所述正文部分進行層級劃分,得到各層級文本;
對各所述層級文本進行自然段落的劃分,得到各自然段落;
對各所述自然段落進行語句劃分,得到所述文本文件的結構化文本內容。
4.根據權利要求2所述的方法,其特征在于,對所述格式統一的文本文件進行內容結構化處理,得到所述結構化文本文件包括:
對所述格式統一的文本文件進行表格識別,并提取出表格內容;
將所述表格內容中的非數字單元作為表頭候選項;
對所述表頭候選項及所述表格內容進行單位識別,得到所述文本文件的結構化表格內容。
5.根據權利要求1所述的方法,其特征在于,所述數據提取規則包括文本分別定位提取規則、文本同時定位提取規則、表格提取規則、按段落名提取段落規則、信息上下文定位規則、文本頭部定位規則、文本落款定位規則中的至少一項。
6.根據權利要求1所述的方法,其特征在于,當所述配置文件中包括預設正則表達式時,還包括:
通過所述預設正則表達式提取所述個股公告的公共信息;其中,所述公共信息包括證券代碼、證券標題、公告編號、公告日期中的至少一項。
7.一種個股公告數據提取的系統,其特征在于,基于通用框架,所述系統包括:
預處理模塊,用于所述通用框架對接收到的個股公告進行預處理操作,得到結構化文本文件;
解析模塊,用于接收輸入的配置文件,并解析所述配置文件得到數據提取規則;
數據提取模塊,用于根據所述數據提取規則對所述結構化文本文件進行數據提取。
8.根據權利要求7所述的系統,其特征在于,所述預處理模塊包括:
格式統一子模塊,用于對所述個股公告進行格式統一處理,得到格式統一的文本文件;
內容結構化子模塊,用于對所述格式統一的文本文件進行內容結構化處理,得到所述結構化文本文件。
9.一種個股公告數據提取設備,其特征在于,包括:
存儲器,用于存儲計算機程序;
處理器,用于執行所述計算機程序時實現如權利要求1至6任一項所述個股公告數據提取的方法的步驟。
10.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質上存儲有計算機程序,所述計算機程序被處理器執行時實現如權利要求1至6任一項所述個股公告數據提取的方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811615564.0/1.html,轉載請聲明來源鉆瓜專利網。





