[發明專利]一種文本校驗方法、裝置、設備及可讀存儲介質在審
| 申請號: | 201810564037.5 | 申請日: | 2018-06-04 |
| 公開(公告)號: | CN108764194A | 公開(公告)日: | 2018-11-06 |
| 發明(設計)人: | 陳翰卿;胡加學;符德祥 | 申請(專利權)人: | 科大訊飛股份有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 王雨;王寶筠 |
| 地址: | 230088 安徽*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 校驗 文本信息 活動項目 可讀存儲介質 申請 文本 人工成本 司法案件 自動化 審核 | ||
本申請實施例公開了一種文本校驗方法、裝置、設備及可讀存儲介質,本申請獲取活動項目對應的待校驗文本信息,其中,活動項目可以是司法案件審核等,進一步根據待校驗文本信息,確定所需校驗要素的要素值,該校驗要素與活動項目相對應,最終根據所述校驗要素的要素值,確定所述待校驗文本信息是否合規。本申請實施例提供的方法,能夠實現自動化的確定待校驗文本信息是否合規,無需人工查閱文本信息,從而避免了結果受人為的干擾,且降低了人工成本。
技術領域
本申請涉及自然語言處理技術領域,更具體地說,涉及一種文本校驗方法、裝置、設備及可讀存儲介質。
背景技術
隨著時代的發展,當前已經進入了數據時代,各行各業都會產生大量的文本數據,基于大量的數據可以實現多樣化的功能。
以司法案件審判場景為例,一個案件審核過程可能會涉及大量的證據,證據大多數情況下是以文本形式存在。這些證據文本在正式使用之前均需要對其合規性進行校驗。合規性校驗需要對證據文書的多種信息進行校驗,如證據文書是否有蓋章,具體文本內容是否包含所需的必要信息點等等。
現有方法均是基于相關司法人員人工查閱證據文書,并基于自身經驗給出證據文書是否合規的判定結論。而由于人與人之間判斷差異度不同,因此給出的結論很容易受到人為干擾,并且查閱大量證據文書也會占用很大的人力成本。
發明內容
有鑒于此,本申請提供了一種文本校驗方法、裝置、設備及可讀存儲介質,用于解決現有通過人工查閱文本給出合規性判定結論的方式,容易受到人為干擾,且占用人力成本的問題。
為了實現上述目的,現提出的方案如下:
一種文本校驗方法,包括:
獲取活動項目對應的待校驗文本信息;
根據所述待校驗文本信息,確定所需校驗要素的要素值,所述校驗要素與所述活動項目相對應;
根據所述校驗要素的要素值,確定所述待校驗文本信息是否合規。
優選地,所述獲取活動項目對應的待檢驗文本信息,包括:
對活動項目對應的實體待校驗文書進行光學字符識別OCR處理,將OCR處理后的結果作為所述活動項目對應的待校驗文本信息。
優選地,所述校驗要素包括文本類型;所述根據所述待校驗文本信息,確定所需校驗要素的要素值,包括:
根據所述待校驗文本信息及預置的分類模型,確定所述待檢驗文本信息的文本類型取值;所述分類模型為,預先以標注有文本類型取值的文本信息訓練數據訓練得到。
優選地,所述根據所述待校驗文本信息及預置的分類模型,確定所述待檢驗文本信息的文本類型取值,包括:
獲取所述OCR處理后的結果中,文本區域的位置參數及包含的文本值;
通過分類模型的輸入層,輸入所述位置參數及所述文本值;
通過分類模型的卷積池化層,對所述位置參數及所述文本值進行卷積池化處理,得到文本特征;
通過分類模型的注意力層,采用自注意力機制對所述文本特征進行處理,得到處理后文本特征;
通過分類模型的全連接層,根據所述處理后文本特征,確定待校驗文本信息的文本類型取值。
優選地,所述校驗要素包括信息點包含情況;所述根據所述待校驗文本信息,確定所需校驗要素的要素值,包括:
獲取所述OCR處理后的結果中,文本區域包含的文本值;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于科大訊飛股份有限公司,未經科大訊飛股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810564037.5/2.html,轉載請聲明來源鉆瓜專利網。





