[發明專利]通過著色的視覺跟蹤在審
| 申請號: | 201980014226.8 | 申請日: | 2019-06-12 |
| 公開(公告)號: | CN111742345A | 公開(公告)日: | 2020-10-02 |
| 發明(設計)人: | 阿比納夫·什里瓦斯塔瓦;阿里禮薩·法蒂;塞爾吉奧·瓜達拉馬科塔多;凱文·帕特里克·墨菲;卡爾·馬丁·馮德日奇克 | 申請(專利權)人: | 谷歌有限責任公司 |
| 主分類號: | G06T7/246 | 分類號: | G06T7/246;G06T7/90;G06T11/00;G06N20/00 |
| 代理公司: | 中原信達知識產權代理有限責任公司 11219 | 代理人: | 李寶泉;任慶威 |
| 地址: | 美國加利*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 通過 著色 視覺 跟蹤 | ||
用于執行視覺跟蹤的方法、系統和裝置,包括編碼在計算機存儲介質上的計算機程序。在一個方面,一種方法包括接收:(i)一個或多個參考視頻幀,(ii)參考視頻幀中的多個參考像素的每一個參考像素的相應參考標簽,以及(iii)目標視頻幀。使用著色機器學習模型處理參考視頻幀和目標視頻幀,以生成(i)目標視頻幀中的多個目標像素和(ii)參考視頻幀中的參考像素的每一個之間的相應像素相似性度量。確定目標視頻幀中的每一個目標像素的相應目標標簽,包括:組合(i)參考視頻幀中的參考像素的參考標簽,以及(ii)像素相似性度量。
技術領域
本說明書涉及使用機器學習模型來處理數據。
背景技術
機器學習模型接收輸入,并基于接收到的輸入生成輸出,例如,預測輸出。一些機器學習模型是參數模型,并且基于接收到的輸入和模型的參數的值生成輸出。
一些機器學習模型是采用多層模型來為接收到的輸入生成輸出的深度模型。例如,深度神經網絡是深度機器學習模型,該深度機器學習模型包括輸出層和一個或多個隱藏層,每個隱藏層將非線性變換應用于接收到的輸入以生成輸出。
發明內容
本說明書描述了一種系統,該系統被實現為在一個或多個位置中的一個或多個計算機上執行視覺跟蹤的計算機程序。
根據第一方面,提供了一種方法,該方法包括:包括:接收:(i)一個或多個參考視頻幀,(ii)參考視頻幀中的多個參考像素中的每個參考像素的相應參考標簽,以及(iii)目標視頻幀;使用著色機器學習模型處理參考視頻幀和目標視頻幀,以生成(i)目標視頻幀中的多個目標像素和(ii)參考視頻幀中的參考像素的每個之間的相應的像素相似性度量,其中,訓練著色機器學習模型以生成像素相似性度量,其中,通過組合以下各項來定義目標視頻幀中的目標像素中的每個目標像素的相應估計顏色:(i)參考視頻幀中的參考像素中的每個參考像素的實際顏色,以及(ii)像素相似性度量;以及,確定目標視頻幀中的每個目標像素的相應的目標標簽,包括:組合(i)參考視頻幀中的參考像素的參考標簽,以及(ii)像素相似性度量。
參考視頻幀中的參考像素可以包括參考視頻幀中的像素的適當子集。
參考視頻幀和目標視頻幀可以在被著色機器學習模型處理之前被脫色。
著色機器學習模型可以包括嵌入神經網絡,并且其中,使用著色機器學習模型來處理參考視頻幀和目標視頻幀以生成在(i)目標視頻幀中的目標像素和(ii)參考視頻幀中的參考像素的每個之間的相應像素相似性度量可以包括:提供參考視頻幀和目標視頻幀作為對于嵌入神經網絡的輸入;根據嵌入神經網絡參數的當前值來處理輸入,以生成(i)目標視頻幀中的目標像素和(ii)參考視頻幀中的參考像素中的每一個的相應嵌入;以及,使用嵌入生成(i)目標視頻幀中的目標像素和(ii)參考視頻幀中的參考像素中的每一個之間的相應像素相似性度量。
嵌入神經網絡可以包括一個或多個卷積神經網絡層。
使用嵌入生成(i)目標視頻幀中的目標像素和(ii)參考視頻幀中的參考像素中的每一個之間的相應像素相似性度量可以包括:使用目標像素的嵌入和參考像素的嵌入之間的相似性度量來生成目標像素和參考像素之間的像素相似性度量。
像素的標簽可以包括針對多個可能類別中的每一個可能類別指示所述像素對應于該類別的相應可能性的數據。
像素的標簽可以包括對于多個可能的關鍵點中的每一個關鍵點指示像素對應于該關鍵點的相應可能性的數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于谷歌有限責任公司,未經谷歌有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201980014226.8/2.html,轉載請聲明來源鉆瓜專利網。





