[發明專利]從圖像生成對象嵌入有效
| 申請號: | 201880069917.3 | 申請日: | 2018-11-01 |
| 公開(公告)號: | CN111279363B | 公開(公告)日: | 2021-04-20 |
| 發明(設計)人: | G.F.施羅夫;D.卡列尼琴科;葉可人 | 申請(專利權)人: | 谷歌有限責任公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08;G06K9/00 |
| 代理公司: | 中原信達知識產權代理有限責任公司 11219 | 代理人: | 周亞榮;鄧聰惠 |
| 地址: | 美國加利*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 圖像 生成 對象 嵌入 | ||
用于訓練對象嵌入系統的方法、系統和裝置,包括編碼在計算機存儲介質上的計算機程序。在一個方面,方法包括將所選圖像作為輸入提供給對象嵌入系統并生成相應的嵌入,其中對象嵌入系統包括縮略神經網絡和嵌入神經網絡。該方法還包括基于損失函數反向傳播梯度,以減小相同對象實例的嵌入之間的距離,并增大不同對象實例的嵌入之間的距離。
背景技術
本說明書涉及使用神經網絡處理圖像。
機器學習模型接收輸入并基于接收到的輸入生成輸出,例如預測的輸出。一些機器學習模型是參數模型,并且基于接收到的輸入和模型的參數的值生成輸出。
一些機器學習模型是深度模型,該深度模型采用多層模型來針對接收到的輸入生成輸出。例如,深度神經網絡是深度機器學習模型,該深度機器學習模型包括輸出層和一個或多個隱藏層,每個隱藏層對接收到的輸入應用非線性變換以生成輸出。
發明內容
本說明書描述了一種在一個或多個位置的一個或多個計算機上實現為計算機程序的方法,用于訓練對象嵌入(embedding)系統。
根據第一方面,提供了一種用于對象嵌入系統的端到端訓練的方法,該方法包括:在多個圖像上迭代地訓練對象嵌入系統,每一個圖像描繪特定類型的對象,訓練的每個迭代包括:將所選圖像作為輸入提供給對象嵌入系統并生成相應的嵌入,其中對象嵌入系統包括縮略(thumbnailing)神經網絡和嵌入神經網絡,其中每個神經網絡包括多個相互排斥的連續層,并且其中使用對象嵌入系統生成圖像中描繪的對象的嵌入包括:生成圖像中描繪的對象的縮略表示作為縮略神經網絡的輸出,其中縮略神經網絡根據縮略神經網絡參數的集合的值處理輸入,以:確定空間變換的參數的值,該空間變換定義縮略表示的像素和圖像的像素之間的對應關系;以及使用該空間變換和圖像生成縮略表示作為輸出;通過將縮略表示作為輸入提供給嵌入神經網絡來生成嵌入,該嵌入神經網絡被配置為根據嵌入神經網絡參數的集合的值來處理縮略表示,以生成嵌入作為輸出;基于損失函數確定梯度,以減小相同對象實例的嵌入之間的距離,并增大不同對象實例的嵌入之間的距離;以及使用梯度調整空間變換器神經網絡參數的集合的值和嵌入神經網絡參數的集合的值。
在一些實現方式中,該對象嵌入系統還包括檢測神經網絡,該檢測神經網絡包括多個連續層,并且使用對象嵌入系統生成圖像中描繪的對象的嵌入還包括:通過將圖像作為輸入提供給檢測神經網絡來生成圖像的編碼表示,其中檢測神經網絡被配置為根據檢測神經網絡參數的集合的值來處理圖像,以生成圖像的編碼表示;以及將圖像的編碼表示作為輸入提供給縮略神經網絡。
在一些實現方式中,預訓練檢測神經網絡以生成圖像的編碼表示,該編碼表示包括識別圖像中特定類型的對象的預測位置的數據。
在一些實現方式中,基于不是由縮略神經網絡生成的特定類型的對象的縮略表示,預訓練嵌入神經網絡。
在一些實現方式中,基于損失函數確定梯度還包括:對于每個所選圖像,確定由縮略神經網絡生成的縮略表示的關鍵點的位置;確定圖像的參考幀中縮略表示的關鍵點的位置;以及減小圖像中描繪的特定類型的對象的關鍵點的位置和圖像的參考幀中縮略表示的關鍵點的位置之間的誤差度量。
在一些實現方式中,圖像中描繪的特定類型的對象的關鍵點包括圖像中描繪的特定類型的對象周圍的邊界框的頂點,并且其中縮略表示的關鍵點包括縮略表示的邊界頂點。
在一些實現方式中,誤差度量是圖像中描繪的特定類型的對象的關鍵點的位置和圖像的參考幀中縮略表示的關鍵點的位置之間的誤差的總和;并且如果圖像中描繪的特定類型的對象的關鍵點的位置和圖像的參考幀中縮略表示的關鍵點的對應位置之間的距離小于容差半徑,則它們之間的誤差為零。
在一些實現方式中,容差半徑在訓練迭代中增加,直到達到最大閾值。
在一些實現方式中,縮略神經網絡的空間變換包括圖像扭曲(warping)空間變換,該圖像扭曲空間變換根據縮略表示的每個像素處的位移矢量來定義縮略表示的像素和圖像的像素之間的對應關系。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于谷歌有限責任公司,未經谷歌有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201880069917.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:液滴分配裝置及系統
- 下一篇:用于在海上飼養水產養殖動物的裝置
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





