[發明專利]一種金融長文本復核系統在審
| 申請號: | 202110531556.3 | 申請日: | 2021-05-17 |
| 公開(公告)號: | CN113159969A | 公開(公告)日: | 2021-07-23 |
| 發明(設計)人: | 朱樂為;馬文翔;崔子鋒 | 申請(專利權)人: | 廣州故新智能科技有限責任公司 |
| 主分類號: | G06Q40/06 | 分類號: | G06Q40/06;G06F40/18;G06F40/30;G06K9/00 |
| 代理公司: | 廣州市百拓共享專利代理事務所(特殊普通合伙) 44497 | 代理人: | 劉靜 |
| 地址: | 510000 廣東省廣州市海珠區*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 金融 文本 復核 系統 | ||
1.一種金融長文本復核系統,其用于解析和審核非結構化金融數據長文本,其特征在于,其包括數據解析模塊以及數據審核模塊,
所述數據解析模塊將非結構化數據解析成結構化數據,該數據解析模塊包括版面識別單元、表格語義分析單元以及表格語義解析單元,所述版面識別單元用于獲取原始金融數據長文本對的文檔篇章結構信息,所述表格語義分析單元用于分析版面識別單元獲取的表格數據并按預定義的數據模型組織存儲數據,所述文本語義解析用于解析版面識別單元獲取的段落、標題數據并按預定義的數據模型組織存儲數據;
所述數據審核模塊對結構化數據進行審核處理,該數據審核模塊包括錯別字審查單元、一致性審核單元、勾稽關系審核單元以及文本格式審核單元,其中,所述錯別字審查單元根據NLP模型檢測潛在錯別字得到候選字符及概率并結合領域字典針對段落、標題數據查找錯別字提出糾正建議,所述一致性審核根據會計準則對表格數據進行審核,所述勾稽關系審核單元根據會計準則提取文本中存在的勾稽關系規則,并由該些勾稽關系規則進行數據審核;所述文本格式審核單元根據標題和文本的目錄結構,根據序號連續性和關聯序號規則進行格式審核。
2.根據權利要求1所述的一種金融長文本復核系統,其特征在于,所述非結構化金融數據長文本為PDF格式文本。
3.根據權利要求2所述的一種金融長文本復核系統,其特征在于,所述版面識別單元獲取原始金融數據長文本對的文檔篇章結構信息的具體步驟為:
S10:將PDF格式文本按頁轉換為圖片格式文本,并進行拉伸以及二值化預處理;
S11:根據CV模型檢測預處理后的圖片格式文本,獲取表格、頁眉、頁腳、圖片、公式數據;
S12:提取表格、頁眉、頁腳、圖片、公式數據以外的文字數據,并將該些文字數據按頁,行順序組織;
S13:根據NLP模型將提取的文字數據劃分為段落數據和標題數據;
S14:整合輸出提取的數據保存至數據庫中。
4.根據權利要求3所述的一種金融長文本復核系統,其特征在于,所述表格語義分析單元對表格數據分析的具體步驟為:
S20:獲取S14中的表格數據;
S21:對表格數據進行預處理,包括:數據清洗和集合劃分;
S22:根據NLP模型解析預處理后的表格數據并提取表格數據關系;
S23:將表格數據以及表格數據關系按預定義的數據模型組織輸出并保存至數據庫中;
所述文本語義解析單元解析段落數據和標題數據的具體步驟為:
S30:獲取S14中的段落數據和標題數據;
S31:對段落數據和標題數據進行預處理,包括:數據清洗、數據長度切割、定位數據提取位置,以及數據字型特征轉換為預定義字型格式;
S32:根據NLP模型解析預處理后的段落數據和標題數據,提取數據文本中的關鍵信息、相關必要信息以及關鍵信息之間的關聯;
S33:將解析后的段落數據和標題數據按預定義的數據模型組織輸出并保存至數據庫中。
5.根據權利要求4所述的一種金融長文本復核系統,其特征在于,所述錯別字審查單元對段落數據和標題數據中錯別字查找的具體步驟為:
S40:讀取S33中的段落數據和標題數據;
S41:對段落數據和標題數據進行預處理,包括:數據清洗,非敏感文本數據提取;
S42:根據NLP模型檢測潛在錯別字得到候選字符以及候選字符概率并輸出錯別字模型;
S43:根據金融領域的領域字典以及錯別字模型,篩選錯別字以及提出糾正建議并輸出;
S44:將輸出數據處理為預定義格式數據并展示。
6.根據權利要求4所述的一種金融長文本復核系統,其特征在于,所述一致性審核單元審核表格數據的具體步驟為:
S50:讀取S23中的表格數據;
S51:將表格數據區分為財務摘要表、財務主表和財務附注表;
S52:根據會計準則提取一致性審核規則,按規則進行數據匹配;
S53:將匹配后的數據按預定格式輸出并存保存至數據庫并輸出審核結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州故新智能科技有限責任公司,未經廣州故新智能科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110531556.3/1.html,轉載請聲明來源鉆瓜專利網。





