[發明專利]金額識別方法、裝置、計算機設備和可讀存儲介質在審
| 申請號: | 201911114733.7 | 申請日: | 2019-11-14 |
| 公開(公告)號: | CN111126064A | 公開(公告)日: | 2020-05-08 |
| 發明(設計)人: | 張森;葉興龍;繆瑾;暢敏;于長虹;肖波;譚卓;李星良;吳宏揚 | 申請(專利權)人: | 四川隧唐科技股份有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 謝玲 |
| 地址: | 610000 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 金額 識別 方法 裝置 計算機 設備 可讀 存儲 介質 | ||
本申請實施例提供了一種金額識別方法、裝置、計算機設備和可讀存儲介質,方法應用于計算機設備,通過對待處理文本進行預處理,獲得待處理金額,然后通過對待處理金額進行金額識別、金額清洗和單位識別的操作,進而可以準確的獲取目標金額。
技術領域
本申請涉及文字識別技術領域,具體而言,涉及一種金額識別方法、裝置、計算機設備和可讀存儲介質。
背景技術
目前,傳統的實體識別技術主要基于元組相似性進行識別,但是在某些情況下,這樣的性質并不成立,尤其是在針對金額進行識別時,由于文本文件中會存在各種標號(包括數字標號)和英文字符,想要通過元組相似性準確地識別金額較為困難。
有鑒于此,如何提供一種能夠準確識別金額的方法,是目前需要解決的問題。
發明內容
本申請提供了一種金額識別方法、裝置、計算機設備和可讀存儲介質。
第一方面,本申請實施例提供一種金額識別方法,應用于計算機設備,所述方法包括:
將待處理文本進行預處理,獲得待處理金額;
將所述待處理金額進行金額識別;
將進行金額識別后的待處理金額進行金額清洗和單位識別,獲取目標金額。
在可選的實施方式中,所述計算機設備中包括預先設置的關鍵詞庫,所述將待處理文本進行預處理,獲得待處理金額,包括:
除去所述待處理文本中的干擾信息,其中,所述干擾信息包括代碼數據;
將除去干擾信息后的待處理文本中的預設標點符號進行文本替換;
根據所述關鍵詞庫,將進行文本替換后的待處理文本進行過濾,獲取待處理金額。
在可選的實施方式中,所述將所述待處理金額進行金額識別,包括:
將所述待處理金額進行文本分詞;
將進行文本分詞后的待處理金額進行詞性標注;
將進行詞性標注后的待處理金額進行實體標注;
將進行實體標注后的待處理金額進行金額識別。
在可選的實施方式中,所述將所述待處理金額進行金額識別,包括:
將所述待處理金額進行文本分詞;
將文本分詞后的待處理金額進行詞性標注;
根據預存句法對詞性標注后的待處理金額進行分析;
將根據預存句法分析后的待處理金額進行金額識別。
在可選的實施方式中,將進行金額識別后的待處理金額進行金額清洗,包括:
根據預先設置的第一判斷模型判斷所述待處理金額中的數據的類型是否為目標金額的類型,若是,則保留所述數據作為目標金額;
若不是,則刪除所述數據。
在可選的實施方式中,將進行金額識別后的所述待處理金額進行單位識別,包括:
根據預先設置的第二判斷模型判斷所述待處理金額的單位是否為萬元;若是,則將所述目標金額的單位輸出為萬元;
若不是,則直接將所述目標金額輸出。
第二方面,本申請實施例提供一種金額識別裝置,應用于計算機設備,所述裝置包括:
處理模塊,用于將待處理文本進行預處理,獲得待處理金額;
識別模塊,用于將所述待處理金額進行金額識別;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川隧唐科技股份有限公司,未經四川隧唐科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911114733.7/2.html,轉載請聲明來源鉆瓜專利網。





