[發明專利]文檔數據清洗方法、系統、電子設備、存儲介質在審
| 申請號: | 202210255573.3 | 申請日: | 2022-03-15 |
| 公開(公告)號: | CN114708134A | 公開(公告)日: | 2022-07-05 |
| 發明(設計)人: | 劉鵬;王則遠 | 申請(專利權)人: | 靈犀量子(北京)醫療科技有限公司 |
| 主分類號: | G06T1/00 | 分類號: | G06T1/00;G06T9/00 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 劉亞平 |
| 地址: | 100161 北京市豐臺區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文檔 數據 清洗 方法 系統 電子設備 存儲 介質 | ||
本發明提供一種文檔數據清洗方法、系統、電子設備、存儲介質,所述方法包括:獲取待清洗的文檔的圖像版本,將文檔的圖像版本拆分為多個示例;將示例轉化為圖像向量,并與預置的樣本圖像向量比較,判斷示例是否需要去除;去除需要去除的示例,拼接剩余的示例,獲得清洗后的文檔。本發明可以對大多數各種形式的圖像版本的文獻進行清洗,大大數據清洗的成本,提高數據生產效率。
技術領域
本發明涉及數據清洗技術領域,尤其涉及一種文檔數據清洗方法、系統、電子設備、存儲介質。
背景技術
對于圖像版本的文獻中的冗余信息(包括隱私信息、水印信息等等)的清洗在很多實際生產場景中有著廣泛的需求,近年來,隨著基于人工智能的計算機視覺(ComputerVision)任務的相關算法技術蓬勃發展,利用AI技術輔助進行各種數據清洗是一個十分有價值的過程,可以為企業或個人節省大量的時間并且減少成本的消耗。
在日常對圖像版本的文獻進行處理解析時,經常遇到一些不想要的垃圾冗余信息夾雜在所需文本信息之中,比如一些頁眉頁腳信息、水印信息、二維碼信息等。但是,將這些無用信息通過某種方式一次性地進行清洗掉,很難找到一個方便、有效的方法。
目前,對圖像版本的文獻進行清洗,通常利用編程語言將圖像版本的文獻中的文本進行讀取,通過指定特定的規則進行清洗,這類方法實現較為簡單,只能針對形式較為規整、需要剔除信息較少的文獻。
發明內容
針對現有技術存在的問題,本發明提供一種文檔數據清洗方法、系統、電子設備、存儲介質。
本發明提供的一種文檔數據清洗方法,所述方法包括:
獲取待清洗的文檔的圖像版本,將文檔的圖像版本拆分為多個示例;
將示例轉化為圖像向量,并與預置的樣本圖像向量比較,判斷示例是否需要去除;
去除需要去除的示例,拼接剩余的示例,獲得清洗后的文檔。
根據本發明提供的一種文檔數據清洗方法,所述將文檔的圖像版本拆分為多個示例,包括:
基于多示例學習,將文檔的圖像版本拆分為多個多示例包;
其中,每個多示例包含有多個沒有分類標簽的示例。
根據本發明提供的一種文檔數據清洗方法,所述將示例轉化為圖像向量,包括:
基于Transformer網絡,先將示例拆分形成序列,再對序列進行編碼,形成與示例對應的圖像向量。
根據本發明提供的一種文檔數據清洗方法,所述將示例轉化為圖像向量,并與預置的樣本圖像向量比較,包括:
將示例轉化為圖像向量;
將示例轉化的圖像向量與預置的樣本圖像向量進行歐幾里得距離求解,將歐幾里得距離作為兩個圖像向量的相似度;
將相似度大于預定閾值的示例判斷為需要去除的示例;
其中,示例和預置的樣本均通過相同的Transformer網絡轉化為圖像向量。
根據本發明提供的一種文檔數據清洗方法,所述獲得清洗后的文檔之前,或者,所述將文檔的圖像版本拆分為多個示例之前,還包括:
對文檔的圖像版本進行色素檢測,去除與當前圖像整體不符的斑點。
根據本發明提供的一種文檔數據清洗方法,所述將示例轉化為圖像向量,并與預置的樣本圖像向量比較,之前包括:
確認待清洗的文檔中需要去除的信息類別;
選擇與需要去除的信息類別所對應的樣本圖像的種類。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于靈犀量子(北京)醫療科技有限公司,未經靈犀量子(北京)醫療科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210255573.3/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





