[發(fā)明專利]用于估計對象的姿勢和姿態(tài)信息的系統(tǒng)和方法有效
| 申請?zhí)枺?/td> | 202010015816.7 | 申請日: | 2020-01-07 |
| 公開(公告)號: | CN111414797B | 公開(公告)日: | 2023-05-23 |
| 發(fā)明(設(shè)計)人: | 曾俊諺 | 申請(專利權(quán))人: | 一元精靈有限公司 |
| 主分類號: | G06V40/10 | 分類號: | G06V40/10;G06V10/82;G06N3/0464 |
| 代理公司: | 深圳永慧知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44378 | 代理人: | 宋鷹武 |
| 地址: | 中國香港九龍觀塘*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用于 估計 對象 姿勢 姿態(tài) 信息 系統(tǒng) 方法 | ||
公開了用于基于來自移動終端的視頻的姿態(tài)序列的系統(tǒng)和方法。本發(fā)明的實施方式提供了用于姿態(tài)估計的系統(tǒng)和方法,包括:通過移動終端捕獲視頻序列,該視頻序列包括多個幀;提取視頻序列中對象的多個卷積特征;根據(jù)視頻序列估計對象的姿勢;根據(jù)估計的姿勢構(gòu)建多個特征的模型;根據(jù)多個特征估計對象的姿態(tài)。該系統(tǒng)還根據(jù)無約束視頻確定關(guān)鍵姿態(tài)序列,其中,移動終端捕獲視頻序列;追蹤器估計參考對象;姿態(tài)估計器根據(jù)多個特征估計對象的姿態(tài);姿態(tài)解析單元評估估計的姿態(tài);姿態(tài)重建單元將姿態(tài)重建到三維空間中;估算單元確定應(yīng)該被添加到關(guān)鍵姿態(tài)序列中的估計姿態(tài)。
技術(shù)領(lǐng)域
本發(fā)明涉及機器視覺,特別地涉及對象的基于機器的姿勢估計和姿態(tài)辨識,以根據(jù)從移動終端獲得的視頻產(chǎn)生關(guān)鍵姿態(tài)序列。
背景技術(shù)
在最近的十年中,無論是在算法還是在計算能力上都取得了許多突破,為人工智能(AI)發(fā)展創(chuàng)造了良好的環(huán)境。計算機視覺——AI最關(guān)鍵的子域之一——受到了這一浪潮的深刻影響。利用深度學(xué)習(xí)的力量,最先進的計算機視覺算法可以執(zhí)行幾乎等同于或者很快超過人類的檢測和分類任務(wù)。
為了使計算機能夠像人類一樣執(zhí)行任務(wù),或者甚至進一步分析情況,這要求AI理解我們的實體世界。計算機視覺對于AI至關(guān)重要,因為它在通過提供視覺信息來幫助AI與我們的世界連接方面做出了巨大貢獻。視覺是人類最重要的感覺,在其他所有感官中,人們最不能忍受失去視覺。
根據(jù)視覺圖像、心理圖像或視頻序列,計算機有多種方法分析和追蹤對象的姿態(tài)。一些方法是檢測對象的組成部分的自下而上的方法;其他則相反,是檢測整個對象的自上而下。為了檢測不同水平的對象特征,檢測系統(tǒng)可能需要許多連鎖算法。但是,一些方法傾向于使用端到端算法。哪種方法是進行檢測的最好方式尚無定論。對于系統(tǒng)來說,訓(xùn)練該系統(tǒng)需要多少數(shù)據(jù)以及該系統(tǒng)在檢測階段能運行多快才是重要的。
涉及到檢測速度時,算法復(fù)雜度和計算能力是應(yīng)當(dāng)考慮的兩個因素。通常,大多數(shù)計算任務(wù)都是利用一組處理單元(例如云服務(wù)器)執(zhí)行的。然而,最近的一些發(fā)展證明了在移動終端上運行這種復(fù)雜任務(wù)的可能性,這開啟了系統(tǒng)同時包括終點處理和云處理的能力。
通常,以前的方法通常依賴于假定的形狀模型根據(jù)強度或深度數(shù)據(jù)來追蹤運動。由于真實世界場景的復(fù)雜性和數(shù)據(jù)的固有局限性,大多數(shù)姿態(tài)估計方法的問題公式化都非常復(fù)雜(通常為非確定性多項式困難問題(NP-hard))。為了解決固有限制的問題,一些開發(fā)依賴于多個攝像機或復(fù)雜的運動感測輸入設(shè)備,這極其昂貴。另外,其中一些必須設(shè)置在受限的環(huán)境諸如捕獲工作室中,這嚴(yán)重限制了系統(tǒng)的應(yīng)用。
因此,本領(lǐng)域中需要的是更高效且可移動的方案來估計人體姿態(tài)。由于完成這項任務(wù)需要大量的復(fù)雜計算,已經(jīng)提出一種利用各種形式的數(shù)據(jù)的近似解法,提取信息以執(zhí)行最理想的姿態(tài)估計,同時不會犧牲移動性。
發(fā)明內(nèi)容
本發(fā)明提供一種根據(jù)從移動終端獲得的視頻來估計關(guān)鍵姿態(tài)序列的方法。這在三個主要方面與現(xiàn)有技術(shù)方法形成對比,這三個方面是:(i)依賴與單色傳感器結(jié)合的深度傳感器,(ii)所有數(shù)據(jù)處理必須在遠程計算設(shè)備上執(zhí)行,(iii)所有姿勢和姿態(tài)都無差別地記錄在序列中。本發(fā)明的方法消除了對專用裝備諸如深度傳感器和受限環(huán)境設(shè)置的需要。因此,降低了系統(tǒng)的總成本,這允許非工業(yè)用戶買進該裝備。同時,本發(fā)明選擇性地在遠程計算設(shè)備和移動終端上執(zhí)行多級數(shù)據(jù)處理,這增強了系統(tǒng)的移動性。另外,本發(fā)明被設(shè)計成將來自普遍存在的視頻的關(guān)鍵姿態(tài)和姿勢信息記錄成序列,而不是無差別地記錄。
根據(jù)本發(fā)明的一個方面,提供了一種用于確定進入序列中的關(guān)鍵姿態(tài)的新系統(tǒng)。該系統(tǒng)包括至少一個計算設(shè)備,該計算設(shè)備包括硬件部件和軟件程序,用于接收包括多個連續(xù)幀的無約束視頻,為多個連續(xù)幀中的每個幀生成多個最佳姿態(tài)假設(shè)。該系統(tǒng)還包括最佳地在移動終端和遠程計算設(shè)備上管理生成過程。此外,該系統(tǒng)包括一個或多個具有計算機可執(zhí)行指令的非暫時性計算機可讀介質(zhì),計算機可執(zhí)行指令用于執(zhí)行在計算設(shè)備上運行軟件程序的方法。因此,可以選擇各種過程在移動終端上執(zhí)行,為將來的應(yīng)用啟用另外的離線功能。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于一元精靈有限公司,未經(jīng)一元精靈有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010015816.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





