[發明專利]一種基于機器學習的財務報表數據自動識別和分析方法在審
| 申請號: | 201910820809.1 | 申請日: | 2019-08-29 |
| 公開(公告)號: | CN110543475A | 公開(公告)日: | 2019-12-06 |
| 發明(設計)人: | 李梓成;劉廣洲;楊超凡 | 申請(專利權)人: | 深圳市原點參數科技有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/25;G06F16/33;G06F16/35;G06F17/22;G06Q10/06;G06Q40/00 |
| 代理公司: | 11754 北京魚爪知識產權代理有限公司 | 代理人: | 曹治麗<國際申請>=<國際公布>=<進入 |
| 地址: | 518033 廣東省深圳市福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 格式化 財務數據 財務信息 文檔結構 信息完整 數據塊 知識庫 閉環 財務報表數據 數據抽取模塊 信息標注模塊 單個信息 基于機器 檢查模塊 聚合模塊 模塊提取 人工標記 人工輔助 數據抽取 數據反饋 數據解析 數據清洗 文本內容 信息處理 信息系統 自動識別 大數據 文本塊 信息點 糾正 標注 抽取 分析 檢查 文本 篩選 輸出 學習 升級 | ||
1.一種基于機器學習的財務報表數據自動識別和分析方法,其特征在于:所述方法應用于財務報表數據識別和分析系統,從解析最原始的數據開始,利用機器學習算法對信息進行分析和抽取,并且借助人工輔助子系統對極端情況進行處理,并積累標簽數據使整個數據解析過程形成閉環。
2.根據權利要求1所述的基于機器學習的財務報表數據自動識別和分析方法,其特征在于,所述財務報表數據識別和分析系統具體包括數據抽取模塊、數據清洗及文本聚合模塊、文檔結構及信息點標注模塊、財務信息格式化模塊、信息完整性檢查模塊以及人工輔助子系統。
3.根據權利要求1所述的基于機器學習的財務報表數據自動識別和分析方法,其特征在于,所述的信息的抽取過程由數據抽取模塊從源文件中抽取原始信息,所獲取的信息包括每個字符及其位置、字體、字號及文字方向的相關信息。
4.根據權利要求3所述的基于機器學習的財務報表數據自動識別和分析方法,其特征在于,所述的源文件數據包括PDF、HTML及XBRL格式的各類數據原始信息。
5.根據權利要求1所述的基于機器學習的財務報表數據自動識別和分析方法,其特征在于,所述的信息分析過程包括數據的清洗和聚合過程,所述的數據清洗通過數據清洗模塊對抽取出來的數據進行匯總,過濾無用的文字信息,并對字符在編碼上進行標準化;文本聚合針對提取并編碼出來的分開的字符,根據未知信息及邏輯回歸模型對字符進行匯聚,形成從詞語到語句再到完整的文本塊的過程。
6.根據權利要求1所述的基于機器學習的財務報表數據自動識別和分析方法,其特征在于,所述的信息分析過程還包括文檔結構調整及信息點的標注,由文檔結構及信息點標注模塊利用文本相似度分析技術,目標文件的目錄進行內容該分析,通過知識庫提供的標簽數據所訓練的機器模型對目標目錄內容進行識別,按目錄內容對目標文件內容進行模塊劃分,同時對相應模塊進行內容標注。
7.根據權利要求1所述的基于機器學習的財務報表數據自動識別和分析方法,其特征在于,所述的信息分析過程還包括財務數據的提取,由財務信息格式化模塊完成,包括:
A、財務數據的區域定位,根據文檔結構和信息點的標注之后,快速對相關財務數據進行區域定位;
B、文本塊屬性分析,構建一個神經網絡對文本塊屬性進行識別,使用位置信息進行訓練,其文本屬性包括:普通文本塊、鍵值對文本塊、表格、小標題文本塊;
C、對表格進行格式化,根據知識庫中積累的表格樣式數據,對數據進行處理,標記出哪塊文本是“鍵”,哪塊文本是“值”,最終將表格轉化成鍵值對的形式,完成表格的鍵值關系數據提取,并以鍵值對的方式,提取出財務數據。
8.根據權利要求1所述的基于機器學習的財務報表數據自動識別和分析方法,其特征在于,所述數據識別和分析方法需要完成信息完整性檢查,根據財務規則,利用既有程序對整個財務報告進行掃描檢查,防止財務數據被錯誤提取或漏提取,如果檢查通過的話整個數據提取過程結束。
9.根據權利要求1所述的基于機器學習的財務報表數據自動識別和分析方法,其特征在于,對于未能通過檢查的信息,采用人工輔助方式進行人工標記和糾錯。
10.根據權利要求9所述的基于機器學習的財務報表數據自動識別和分析方法,其特征在于,所述人工標記和糾錯的具體內容包括:
對于解析系統中未能正確解析的數據進行人工標記,并積累到知識庫中進行學習訓練;
對于原始數據存在錯誤的部分進行人工糾正。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市原點參數科技有限公司,未經深圳市原點參數科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910820809.1/1.html,轉載請聲明來源鉆瓜專利網。





