[發明專利]一種面向財務報表圖像的科目信息提取方法在審
| 申請號: | 202110302812.1 | 申請日: | 2021-03-22 |
| 公開(公告)號: | CN113094446A | 公開(公告)日: | 2021-07-09 |
| 發明(設計)人: | 李蒙陽;王博濤;張思遠;張振鋒;楊衛星;方雨欣;梁玲玲 | 申請(專利權)人: | 北京三行科技有限公司 |
| 主分類號: | G06F16/28 | 分類號: | G06F16/28;G06K9/34;G06N3/04 |
| 代理公司: | 廣東有知貓知識產權代理有限公司 44681 | 代理人: | 程文棟 |
| 地址: | 100086 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 財務報表 圖像 科目 信息 提取 方法 | ||
1.一種面向財務報表圖像的科目信息提取方法,其特征在于,包括:
S1,將PDF格式的財務報表進行切分以得到多個獨立的原始報表;
S2,將所有原始報表拼接得到完整報表;
S3,通過ocr識別方法對所述完整報表進行表格重構,然后將表格重構后的報表進行分類整理實現科目標準化,最后到標準財務報表。
2.根據權利要求1所述的面向財務報表圖像的科目信息提取方法,其特征在于,所述S3具體包括:針對ocr識別得到標準財務報表進行錯誤替換,具體地,通過查找形近字隨機替換。
3.根據權利要求1所述的面向財務報表圖像的科目信息提取方法,其特征在于,所述S3具體包括:針對ocr識別得到標準財務報表進行漏檢,具體地,對科目名稱的頭尾或中部減字。
4.根據權利要求1所述的面向財務報表圖像的科目信息提取方法,其特征在于,所述S1之前還包括:準備財務報表的科目數據,具體地,利用爬蟲技術從網站爬取數據公司的財務報表數據。
5.根據權利要求1所述的面向財務報表圖像的科目信息提取方法,其特征在于,對所述表格重構后的報表進行人工整理科目類別,將利潤表、現金流量表、資產負債表歸為288個標準類別。
6.根據權利要求5所述的面向財務報表圖像的科目信息提取方法,其特征在于,所述對已有的財務報表數據的科目類別進行標準化類別標注。
7.根據權利要求6所述的面向財務報表圖像的科目信息提取方法,其特征在于,所述標準化類別標注包括隨機抽取100份財務報表,每份包含三表:資產負債表、利潤表、現金流量表,共計300張科目表格數據。人工對300頁科目數據進行打標,標簽為288個對應科目。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京三行科技有限公司,未經北京三行科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110302812.1/1.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





