[發明專利]圖片去重方法和裝置,存儲介質及電子裝置在審
| 申請號: | 201910703442.5 | 申請日: | 2019-07-31 |
| 公開(公告)號: | CN110442738A | 公開(公告)日: | 2019-11-12 |
| 發明(設計)人: | 景逸飛;唐大閏 | 申請(專利權)人: | 北京明略軟件系統有限公司 |
| 主分類號: | G06F16/55 | 分類號: | G06F16/55;G06F16/53;G06K9/62 |
| 代理公司: | 北京康信知識產權代理有限責任公司 11240 | 代理人: | 周婷婷 |
| 地址: | 100086 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 目標圖片 去重 原始圖片 圖片 方法和裝置 存儲介質 電子裝置 對象圖片 集合 海量圖像數據 關鍵圖片 獲取目標 聚類處理 距離目標 重復 存儲 | ||
本發明公開了一種圖片去重方法和裝置,存儲介質及電子裝置。其中,該方法包括:獲取待去重的目標圖片;從原始圖片簇中確定出距離目標圖片最近的至少一個目標圖片簇,其中,原始圖片簇為對包含目標圖片的原始圖片集合進行聚類處理所得到的圖片簇;獲取目標圖片簇中每個對象圖片與目標圖片之間的第一距離;將第一距離小于第一閾值的對象圖片標記為重復圖片;從與目標圖片對應的重復圖片中選擇一張關鍵圖片存儲到目標圖片集合中。本發明解決了無法對海量圖像數據高效的去重的技術問題。
技術領域
本發明涉及計算機領域,具體而言,涉及一種圖片去重方法和裝置,存儲介質及電子裝置。
背景技術
圖片去重是圖像數據清洗中一個重要的環節,通過使用圖片去重技術去除圖片數據集中重復的圖片,從而不用把計算時間花費在重復的圖片上,為后續任務節省時間。因此,能夠實現對海量數據的快速、高效的去重是一件很有意義的事情,但同時也是一項很具有挑戰的任務。
針對上述的問題,目前尚未提出有效的解決方案。
發明內容
本發明實施例提供了一種圖片去重方法和裝置,存儲介質及電子裝置,以至少解決無法對海量圖像數據高效的去重的技術問題。
根據本發明實施例的一個方面,提供了一種圖片去重方法,其特征在于,包括:獲取待去重的目標圖片;從原始圖片簇中確定出距離所述目標圖片最近的至少一個目標圖片簇,其中,所述原始圖片簇為對包含所述目標圖片的原始圖片集合進行聚類處理所得到的圖片簇;獲取所述目標圖片簇中每個對象圖片與所述目標圖片之間的第一距離;將所述第一距離小于第一閾值的所述對象圖片標記為重復圖片;從與所述目標圖片對應的所述重復圖片中選擇一張關鍵圖片存儲到目標圖片集合中。
作為一種可選的實施方式,在上述獲取待去重的目標圖片之前,還包括:通過多進程并行加載上述原始圖片集合;對上述原始圖片集合進行預處理,得到處理后的上述原始圖片集合,其中,上述預處理包括縮放處理和歸一化處理;對處理后的上述原始圖片集合進行聚類處理,得到k個聚類中心,其中k為大于1的自然數;獲取處理后的上述原始圖片集合中每張圖片與上述k個聚類中心之間的第二距離;根據上述第二距離對處理后的上述原始圖片集合進行劃分,得到上述原始圖片簇。
作為一種可選的實施方式,上述對處理后的上述原始圖片集合進行聚類處理,得到k個聚類中心包括:使用自編碼器對處理后的上述原始圖片集合中每張圖片進行特征提取,得到圖片特征;根據上述圖片特征對處理后的上述原始圖片集合進行聚類處理,得到上述k個聚類中心。
作為一種可選的實施方式,上述獲取處理后的上述原始圖片集合中每張圖片與上述k個聚類中心之間的第二距離包括:依次獲取上述原始圖片集合中的每張圖片作為當前圖片;獲取上述當前圖片與上述k個聚類中心中每個聚類中心之間的上述第二距離;獲取上述當前圖片之后的下一張圖片作為上述當前圖片;上述根據上述第二距離對處理后的上述原始圖片集合進行劃分,得到上述原始圖片簇包括:根據所述第二距離從所述k個聚類中心中確定出與所述當前圖片距離最近的第i個聚類中心的情況下,,將上述當前圖片劃分至與上述第i個聚類中心對應的第i個原始圖片簇,其中,i小于等于k,且大于等于1。
作為一種可選的實施方式,上述將所述第一距離小于第一閾值的所述對象圖片標記為重復圖片包括:獲取上述重復圖片的數量;在上述重復圖片的數量大于1的情況下,將用于標記重復圖片的索引變量設置為第一索引值;將與上述目標圖片對應的上述重復圖片均標記為第一索引值,其中,不同的上述目標圖片對應的重復圖片將被標記為不同的索引值。
作為一種可選的實施方式,在上述將所述第一距離小于第一閾值的所述對象圖片標記為重復圖片之后,還包括:將上述索引變量從上述第一索引值調整為第二索引值,并從所述原始圖片集合中獲取所述目標圖片之后的下一張圖片;在所述下一張圖片未被標記為任意一張已比對的目標圖片的重復圖片的情況下,將所述下一張圖片標記為下一張待去重的目標圖片。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京明略軟件系統有限公司,未經北京明略軟件系統有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910703442.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于圖數據庫的數字孿生方法及系統
- 下一篇:一種基于圖片識別的搜索技術





