[發明專利]圖片去重方法和裝置,存儲介質及電子裝置在審
| 申請號: | 201910703442.5 | 申請日: | 2019-07-31 |
| 公開(公告)號: | CN110442738A | 公開(公告)日: | 2019-11-12 |
| 發明(設計)人: | 景逸飛;唐大閏 | 申請(專利權)人: | 北京明略軟件系統有限公司 |
| 主分類號: | G06F16/55 | 分類號: | G06F16/55;G06F16/53;G06K9/62 |
| 代理公司: | 北京康信知識產權代理有限責任公司 11240 | 代理人: | 周婷婷 |
| 地址: | 100086 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 目標圖片 去重 原始圖片 圖片 方法和裝置 存儲介質 電子裝置 對象圖片 集合 海量圖像數據 關鍵圖片 獲取目標 聚類處理 距離目標 重復 存儲 | ||
1.一種圖片去重方法,其特征在于,包括:
獲取待去重的目標圖片;
從原始圖片簇中確定出距離所述目標圖片最近的至少一個目標圖片簇,其中,所述原始圖片簇為對包含所述目標圖片的原始圖片集合進行聚類處理所得到的圖片簇;
獲取所述目標圖片簇中每個對象圖片與所述目標圖片之間的第一距離;
將所述第一距離小于第一閾值的所述對象圖片標記為重復圖片;
從與所述目標圖片對應的所述重復圖片中選擇一張關鍵圖片存儲到目標圖片集合中。
2.根據權利要求1所述的方法,其特征在于,在所述獲取待去重的目標圖片之前,還包括:
通過多進程并行加載所述原始圖片集合;
對所述原始圖片集合進行預處理,得到處理后的所述原始圖片集合,其中,所述預處理包括縮放處理和歸一化處理;
對處理后的所述原始圖片集合進行聚類處理,得到k個聚類中心,其中k為大于1的自然數;
獲取處理后的所述原始圖片集合中每張圖片與所述k個聚類中心之間的第二距離;
根據所述第二距離對處理后的所述原始圖片集合進行劃分,得到所述原始圖片簇。
3.根據權利要求2所述的方法,其特征在于,所述對處理后的所述原始圖片集合進行聚類處理,得到k個聚類中心包括:
使用自編碼器對處理后的所述原始圖片集合中每張圖片進行特征提取,得到圖片特征;
根據所述圖片特征對處理后的所述原始圖片集合進行聚類處理,得到所述k個聚類中心。
4.根據權利要求2所述的方法,其特征在于,
所述獲取處理后的所述原始圖片集合中每張圖片與所述k個聚類中心之間的第二距離包括:
依次獲取所述原始圖片集合中的每張圖片作為當前圖片;
獲取所述當前圖片與所述k個聚類中心中每個聚類中心之間的所述第二距離;
獲取所述當前圖片之后的下一張圖片作為所述當前圖片;
所述根據所述第二距離對處理后的所述原始圖片集合進行劃分,得到所述原始圖片簇包括:
根據所述第二距離從所述k個聚類中心中確定出與所述當前圖片距離最近的第i個聚類中心的情況下,將所述當前圖片劃分至與所述第i個聚類中心對應的第i個原始圖片簇,其中,i小于等于k,且大于等于1。
5.根據權利要求1所述的方法,其特征在于,所述將所述第一距離小于第一閾值的所述對象圖片標記為重復圖片包括:
獲取所述重復圖片的數量;
在所述重復圖片的數量大于1的情況下,將用于標記重復圖片的索引變量設置為第一索引值;
將與所述目標圖片對應的所述重復圖片均標記為第一索引值,其中,不同的所述目標圖片對應的重復圖片將被標記為不同的索引值。
6.根據權利要求5所述的方法,其特征在于,在所述將所述第一距離小于第一閾值的所述對象圖片標記為重復圖片之后,還包括:
將所述索引變量從所述第一索引值調整為第二索引值,并從所述原始圖片集合中獲取所述目標圖片之后的下一張圖片;
在所述下一張圖片未被標記為任意一張已比對的目標圖片的重復圖片的情況下,將所述下一張圖片標記為下一張待去重的目標圖片。
7.根據權利要求5所述的方法,其特征在于,在所述獲取所述重復圖片的數量之后,還包括:
在所述重復圖片的數量等于1的情況下,將所述重復圖片標記為目標索引值,其中,所述目標索引值所標記的所述重復圖片將被直接存儲到所述目標圖片集合中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京明略軟件系統有限公司,未經北京明略軟件系統有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910703442.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于圖數據庫的數字孿生方法及系統
- 下一篇:一種基于圖片識別的搜索技術





