[發明專利]圖像中的對象檢測和表示在審
| 申請號: | 201880024390.2 | 申請日: | 2018-06-11 |
| 公開(公告)號: | CN110506274A | 公開(公告)日: | 2019-11-26 |
| 發明(設計)人: | G.F.施羅夫;W.胡 | 申請(專利權)人: | 谷歌有限責任公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06F16/58;G06K9/62 |
| 代理公司: | 11105 北京市柳沈律師事務所 | 代理人: | 金玉潔<國際申請>=PCT/US2018 |
| 地址: | 美國加利*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 特征表示 圖像生成 描繪 捕獲 計算機存儲介質 圖像 計算機程序 對象檢測 輸入圖像 訓練圖像 迭代 嵌入 輸出 檢測 | ||
用于圖像中的對象檢測和表示的方法、系統和裝置,包括編碼在計算機存儲介質上的計算機程序。在一個方面,方法包括檢測在第一持續時間內捕獲的圖像中特定類型的對象的出現,并且迭代地訓練圖像嵌入函數以產生描繪特定類型的對象的出現的輸入圖像的特征表示作為輸出,其中為描繪在指定的持續時間內捕獲的特定類型的對象的相同實例的圖像生成相似的特征表示,并且為描繪特定類型的對象的不同實例的圖像生成不相似的特征表示。
背景技術
本說明書涉及圖像處理。
手動組織和檢索存儲的圖像可能很困難。例如,由于存儲的圖像的體積和復雜性,手動查看和分組圖像可能會很耗時。
用于圖像組織的自動化方法可以基于圖像之間識別的相似性對圖像進行分組。這些方法中的一些優化了用于識別圖像之間的相似性的模型函數??梢允褂酶鞣N模型函數和訓練方法。例如,面部識別過程可以用于檢索其中檢測的“對象”是面部的照片。這提供了基于檢測到的面部的相似性對個人照片進行分組的個人搜索特征。然而,這種方法不適用于面部不可識別的個人圖像,諸如面部太小、被其他對象遮擋或者處于面部識別過程無法克服的角度。
發明內容
本說明書描述了與圖像處理相關的技術,特別是訓練圖像嵌入函數,該圖像嵌入函數為描繪在指定的持續時間內捕獲的特定類型的對象的相同實例的圖像生成相似的特征表示,并為描繪特定類型的對象的不同實例的圖像生成不相似的特征表示。
通常,本說明書中描述的主題的一個創新方面可以體現在用于訓練圖像嵌入函數的方法中。該方法包括:檢測訓練圖像集中的每個圖像中特定類型的對象的出現,其中訓練圖像集中的圖像是已經在第一持續時間內捕獲的圖像;從訓練圖像集中的圖像提取子圖像,其中每個子圖像描繪檢測對象的一次出現;迭代地訓練圖像嵌入函數,其中圖像嵌入函數包括對輸入圖像進行操作以產生輸入圖像的特征表示作為輸出的一組參數權重,訓練的每次迭代包括:從提取的子圖像中選擇第一類型的圖像對和第二類型的圖像對,每個圖像對是第一子圖像和第二子圖像的組合,其中:第一類型的圖像對包括描繪特定類型的對象的相同實例的第一子圖像和第二子圖像;第二類型的圖像對包括描繪特定類型的對象的不同實例的第一子圖像和第二子圖像;以及對于第一類型的圖像對,從在第二持續時間內捕獲的圖像中提取圖像對的至少第一子圖像和第二子圖像,其中第二持續時間比第一持續時間短;將每個選擇的圖像對提供作為圖像嵌入函數的輸入,并生成相應的輸出;確定圖像嵌入函數的性能測量;基于性能測量調整圖像嵌入函數的參數權重;以及執行訓練的另一次迭代,直到停止事件發生。
在一些實施方式中,選擇第一類型和第二類型的圖像對包括選擇圖像三元組,每個圖像三元組是第一子圖像、第二子圖像和第三子圖像的組合,其中:包括第一子圖像和第二子圖像的圖像對是第一類型的圖像對;并且包括第一子圖像和第三子圖像的圖像對是第二類型的圖像對。
在一些實施方式中,提供圖像三元組作為圖像嵌入函數的輸入并生成相應的輸出包括通過圖像嵌入函數生成圖像三元組中第一圖像的第一特征表示、圖像三元組中第二圖像的第二特征表示以及圖像三元組中第三圖像的第三特征表示。
在一些實施方式中,確定圖像嵌入的性能測量包括,對于每個選擇的圖像三元組:基于第一特征表示和第二特征表示,確定測量第一特征表示與第二特征表示的相似性的第一相似性測量;以及基于第一特征表示和第三特征表示,確定測量第一特征表示與第三特征表示的相似性的第二相似性測量。
在一些實施方式中,圖像嵌入函數生成輸入圖像在歐幾里德空間中的映射作為輸出特征表示;并且對于每個選擇的圖像三元組:確定第一相似性測量包括確定第一特征表示和第二特征表示之間的第一歐幾里德距離;并且確定第二相似性測量包括確定第一特征表示和第三特征表示之間的第二歐幾里德距離。
在一些實施方式中,確定圖像嵌入函數的性能測量是基于每個選擇的圖像三元組的第一歐幾里德距離和第二歐幾里德距離。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于谷歌有限責任公司,未經谷歌有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201880024390.2/2.html,轉載請聲明來源鉆瓜專利網。





