[發明專利]一種文本校驗方法、裝置、設備及可讀存儲介質在審
| 申請號: | 201810564037.5 | 申請日: | 2018-06-04 |
| 公開(公告)號: | CN108764194A | 公開(公告)日: | 2018-11-06 |
| 發明(設計)人: | 陳翰卿;胡加學;符德祥 | 申請(專利權)人: | 科大訊飛股份有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 王雨;王寶筠 |
| 地址: | 230088 安徽*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 校驗 文本信息 活動項目 可讀存儲介質 申請 文本 人工成本 司法案件 自動化 審核 | ||
1.一種文本校驗方法,其特征在于,包括:
獲取活動項目對應的待校驗文本信息;
根據所述待校驗文本信息,確定所需校驗要素的要素值,所述校驗要素與所述活動項目相對應;
根據所述校驗要素的要素值,確定所述待校驗文本信息是否合規。
2.根據權利要求1所述的方法,其特征在于,所述獲取活動項目對應的待檢驗文本信息,包括:
對活動項目對應的實體待校驗文書進行光學字符識別OCR處理,將OCR處理后的結果作為所述活動項目對應的待校驗文本信息。
3.根據權利要求2所述的方法,其特征在于,所述校驗要素包括文本類型;所述根據所述待校驗文本信息,確定所需校驗要素的要素值,包括:
根據所述待校驗文本信息及預置的分類模型,確定所述待檢驗文本信息的文本類型取值;所述分類模型為,預先以標注有文本類型取值的文本信息訓練數據訓練得到。
4.根據權利要求3所述的方法,其特征在于,所述根據所述待校驗文本信息及預置的分類模型,確定所述待檢驗文本信息的文本類型取值,包括:
獲取所述OCR處理后的結果中,文本區域的位置參數及包含的文本值;
通過分類模型的輸入層,輸入所述位置參數及所述文本值;
通過分類模型的卷積池化層,對所述位置參數及所述文本值進行卷積池化處理,得到文本特征;
通過分類模型的注意力層,采用自注意力機制對所述文本特征進行處理,得到處理后文本特征;
通過分類模型的全連接層,根據所述處理后文本特征,確定待校驗文本信息的文本類型取值。
5.根據權利要求2所述的方法,其特征在于,所述校驗要素包括信息點包含情況;所述根據所述待校驗文本信息,確定所需校驗要素的要素值,包括:
獲取所述OCR處理后的結果中,文本區域包含的文本值;
將所述文本值輸入預置的序列標注模型,得到序列標注模型輸出的所述文本值包含的詞所屬的信息點的類型;所述序列標注模型為,預先以訓練文本數據包含的詞作為訓練樣本,以標注的所述詞所屬的信息點的類型為樣本標簽訓練得到;
根據所述序列標注模型輸出的結果,獲取所述待校驗文本信息對各類型信息點的包含情況。
6.根據權利要求5所述的方法,其特征在于,所述校驗要素還包括信息點取值;所述根據所述待校驗文本信息,確定所需校驗要素的要素值,還包括:
根據所述序列標注模型輸出的結果,將所述待校驗文本信息中屬于同一類型信息點的詞,作為所述同一類型信息點的取值信息。
7.根據權利要求6所述的方法,其特征在于,還包括:
針對所述待校驗文本信息中每一類型信息點的取值信息,在預置的知識點庫中,查找相同類型信息點的規整取值信息集合,所述知識點庫中存儲了每一類型信息點的規整取值信息集合,規整取值信息集合中包含至少一個規整取值信息;
確定每一類型信息點的取值信息,與相同類型信息點的規整取值信息集合中,每一個規整取值信息的相似度;
將相似度最高的規整取值信息,作為所述待校驗文本信息中所述相同類型信息點的規整后取值信息。
8.根據權利要求7所述的方法,其特征在于,所述確定每一類型信息點的取值信息,與相同類型信息點的規整取值信息集合中,每一個規整取值信息的相似度,包括:
將所述規整取值信息集合中每一規整取值信息分別與所述信息點的取值信息輸入預置的相似度確定模型,得到相似度確定模型輸出的所述信息點的取值信息與每一規整取值信息的相似度;
所述相似度確定模型為,預先以所述信息點的取值訓練數據及所述信息點的規整取值信息集合為訓練樣本,以所述規整取值信息集合中每一規整取值信息與所述取值訓練數據的相似度標注結果為樣本標簽訓練得到。
9.根據權利要求2所述的方法,其特征在于,所述校驗要素包括指定對象包含情況;所述根據所述待校驗文本信息,確定所需校驗要素的要素值,包括:
獲取所述OCR處理后的結果中,非文本區域包含所述指定對象的數量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于科大訊飛股份有限公司,未經科大訊飛股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810564037.5/1.html,轉載請聲明來源鉆瓜專利網。





