[發明專利]一種金融長文本復核系統在審
| 申請號: | 202110531556.3 | 申請日: | 2021-05-17 |
| 公開(公告)號: | CN113159969A | 公開(公告)日: | 2021-07-23 |
| 發明(設計)人: | 朱樂為;馬文翔;崔子鋒 | 申請(專利權)人: | 廣州故新智能科技有限責任公司 |
| 主分類號: | G06Q40/06 | 分類號: | G06Q40/06;G06F40/18;G06F40/30;G06K9/00 |
| 代理公司: | 廣州市百拓共享專利代理事務所(特殊普通合伙) 44497 | 代理人: | 劉靜 |
| 地址: | 510000 廣東省廣州市海珠區*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 金融 文本 復核 系統 | ||
本發明提供一種金融長文本復核系統,其用于解析和審核非結構化金融數據長文本,其包括數據解析模塊以及數據審核模塊,所述數據解析模塊將非結構化數據解析成結構化數據,該數據解析模塊包括版面識別單元、表格語義分析單元以及表格語義解析單元;所述數據審核模塊對結構化數據進行審核處理,該數據審核模塊包括錯別字審查單元、一致性審核單元、勾稽關系審核單元以及文本格式審核單元。
技術領域
本發明涉及金融文本分析領域,尤其涉及一種金融長文本復核系統。
背景技術
金融長文本主要指年度報告、招股說明書、審計報告等財務數據文本,該些文本主要由文本段落、財務指標和表格數據等復雜元素組成,目前,金融機構或企業本身需要對金融長文本進行復核或其他處理挖掘潛在信息,但該些金融長文本主要依靠人工復核,由于數據量之大以及數據之間的關系復雜,造成人工復核的效率以及精準度低,甚至在發布出去的年度報告中存在數據不一致的問題,為了提高金融長文本的復核效率和精準度,基于計算機強大的計算能力,結合人工智能對自然語言處理技術的興起,現提出一種金融長文本符合系統,以解決金融長文本符合效率低以及精準度低的問題。
發明內容
為了解決現有技術存在的缺點,本發明提供一種金融長文本復核系統,其通過解析金融長文本的文本內容,結合人工智能對文本內容的處理,實現金融長文本的高效率以及精準復核。
本發明提供一種金融長文本復核系統,其用于解析和審核非結構化金融數據長文本,其包括數據解析模塊以及數據審核模塊,所述數據解析模塊將非結構化數據解析成結構化數據,該數據解析模塊包括版面識別單元、表格語義分析單元以及表格語義解析單元,所述版面識別單元用于獲取原始金融數據長文本對的文檔篇章結構信息,所述表格語義分析單元用于分析版面識別單元獲取的表格數據并按預定義的數據模型組織存儲數據,所述文本語義解析用于解析版面識別單元獲取的段落、標題數據并按預定義的數據模型組織存儲數據;所述數據審核模塊對結構化數據進行審核處理,該數據審核模塊包括錯別字審查單元、一致性審核單元、勾稽關系審核單元以及文本格式審核單元,所述錯別字審查單元根據NLP模型檢測潛在錯別字得到候選字符及概率并結合領域字典針對段落、標題數據查找錯別字提出糾正建議,所述一致性審核根據會計準則對表格數據進行審核,所述勾稽關系審核單元根據會計準則提取文本中存在的勾稽關系規則,并由該些勾稽關系規則進行數據審核;所述文本格式審核單元根據標題和文本的目錄結構,根據序號連續性和關聯序號規則進行格式審核。
優選的,所述非結構化金融數據長文本為PDF格式文本。
優選的,所述版面識別單元獲取原始金融數據長文本對的文檔篇章結構信息的具體步驟為:S10:將PDF格式文本按頁轉換為圖片格式文本,并進行拉伸以及二值化預處理;S11:根據CV模型檢測預處理后的圖片格式文本,獲取表格、頁眉、頁腳、圖片、公式數據;S12:提取表格、頁眉、頁腳、圖片、公式數據以外的文字數據,并將該些文字數據按頁,行順序組織;S13:根據NLP模型將提取的文字數據劃分為段落數據和標題數據;S14:整合輸出提取的數據保存至數據庫中。
優選的,所述表格語義分析單元對表格數據分析的具體步驟為:S20:獲取S14中的表格數據;S21:對表格數據進行預處理,包括:數據清洗和集合劃分;S22:根據NLP模型解析預處理后的表格數據并提取表格數據關系;S23:將表格數據以及表格數據關系按預定義的數據模型組織輸出并保存至數據庫中;所述文本語義解析單元解析段落數據和標題數據的具體步驟為:S30:獲取S14中的段落數據和標題數據;S31:對段落數據和標題數據進行預處理,包括:數據清洗、數據長度切割、定位數據提取位置,以及數據字型特征轉換為預定義字型格式;S32:根據NLP模型解析預處理后的段落數據和標題數據,提取數據文本中的關鍵信息、相關必要信息以及關鍵信息之間的關聯;S33:將解析后的段落數據和標題數據按預定義的數據模型組織輸出并保存至數據庫中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州故新智能科技有限責任公司,未經廣州故新智能科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110531556.3/2.html,轉載請聲明來源鉆瓜專利網。





