[發明專利]一種基于序列標注的財務科目計算關系識別方法及裝置在審
| 申請號: | 201911420045.3 | 申請日: | 2019-12-31 |
| 公開(公告)號: | CN111209729A | 公開(公告)日: | 2020-05-29 |
| 發明(設計)人: | 李鵬輝;金鑫;邱錫鵬 | 申請(專利權)人: | 上海犀語科技有限公司 |
| 主分類號: | G06F40/174 | 分類號: | G06F40/174;G06F40/279;G06Q40/00 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 200433 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 序列 標注 財務 科目 計算 關系 識別 方法 裝置 | ||
本發明公開了一種基于序列標注的財務科目計算關系識別方法,包含以下步驟:A、對表格及文本進行預處理;B、采用序列標注方法對財務科目計算關系進行識別,以判斷為預先定義后的計算關系;C、根據序列標注的結果,抽取出與財務科目序列相對應的計算關系,生成結構化數據。本發明通過設計深度學習CNN?LSTM?CRF的序列標注框架,通過訓練序列標注模型,以財務科目序列相對應的計算關系,生成結構化數據。
技術領域
本發明涉及財務計算技術領域,具體是一種基于序列標注的財務科目計算關系識別方法及裝置。
背景技術
在NLP信息抽取領域中,在進行財務科目計算關系識別時大都使用正則表達式或者字典匹配。這些技術無法完全覆蓋各種不同形式的說法,財務科目所對應計算關系識別的正確率較低。
針對上述問題中存在的不足之處,本發明提供一種通過訓練序列標注,抽取出與財務科目序列相對應的計算關系,生成結構化數據的一種基于序列標注的財務科目計算關系識別方法及裝置。
發明內容
本發明的目的在于提供一種基于序列標注的財務科目計算關系識別方法及裝置,以解決上述背景技術中提出的問題。
為實現上述目的,本發明提供如下技術方案:
一種基于序列標注的財務科目計算關系識別方法,包含以下步驟:
A、對表格及文本進行預處理;
B、采用序列標注方法對財務科目計算關系進行識別,以判斷為預先定義后的計算關系;
C、根據序列標注的結果,抽取出與財務科目序列相對應的計算關系,生成結構化數據。
作為本發明的進一步方案:所述步驟A中,對表格文本進行的預處理操作包括對表格中財務科目序列所在列的提取,對表格中多個財務科目所在列的合并,將提取并合并后的財務科目序列轉化成文本,以及對對文字進行清洗,以去除表格中財務科目序列以外的內容。
作為本發明的進一步方案:所述步驟B包括以下步驟:B1、詞向量,對每個科目進行CNN處理,得到每個科目對應的向量;B2、序列標注,對文本進行雙向的LSTM處理,得到每個科目對應的向量;B3、通過條件隨機場對每個字段所對應的標簽進行預測,以得知該字段是否為預先定義好的字段。
作為本發明的進一步方案:所述步驟C的序列標注的訓練過程如下:根據財務科目關系的任務,定義所需要判斷的財務科目計算關系,根據任務定義,進行財務科目計算關系的語料標注,將語料標注送到CNN-LSTM-CRF模型中進行序列標注的訓練,以得到訓練后用于財務科目計算關系的模型。
一種基于序列標注的財務科目計算關系識別裝置,包括:
表格及文本預處理模塊,用于對表格及文本進行預處理;
序列標注模塊,用于通過序列標注方法對財務科目計算關系進行識別,以判斷為預先定義后的計算關系;
科目計算關系抽出模塊,根據序列標注的結果,抽取出與財務科目序列相對應的計算關系,生成結構化數據。
作為本發明的進一步方案:所述文本預處理模塊對文本進行的預處理操作包括對表格中財務科目序列所在列的提取,對表格中多個財務科目所在列的合并,將提取并合并后的財務科目序列轉化成文本,以及對對文字進行清洗,以去除表格中財務科目序列以外的內容。
作為本發明的進一步方案:所述序列標注模塊對文本進行雙向的LSTM處理,得到每個科目對應的向量;通過條件隨機場對每個字段所對應的標簽進行預測,以得知該字段是否為預先定義好的字段。
與現有技術相比,本發明的有益效果是:本發明通過設計深度學習CNN-LSTM-CRF的序列標注框架,通過訓練序列標注模型,以財務科目序列相對應的計算關系,生成結構化數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海犀語科技有限公司,未經上海犀語科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911420045.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于磁釘導航的駕駛系統
- 下一篇:一種絕緣斗溫控裝置自適應控制方法及裝置





