[發明專利]基于深度學習的Android手機端側AR交互系統在審
| 申請號: | 202210541388.0 | 申請日: | 2022-05-17 |
| 公開(公告)號: | CN115309301A | 公開(公告)日: | 2022-11-08 |
| 發明(設計)人: | 戴玉超;朱睿杰;項末初;盧馨悅;徐智鴻 | 申請(專利權)人: | 西北工業大學 |
| 主分類號: | G06F3/04815 | 分類號: | G06F3/04815;G06N3/04;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 710072 陜西*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 學習 android 手機 ar 交互 系統 | ||
本發明公開了基于深度學習的Android手機端側AR交互系統,包括一部帶有攝像頭的手機,手機攝像頭采集原始彩色圖像數據,通過對相機API的調用,實時處理圖像流,并利用Pytorch Mobile深度學習框架訓練高效的、魯棒的輕量化深度估計神經網絡模型,在手機端側利用手機的有限算力,運行神經網絡推理,生成與原始圖像數據對應的預測深度圖。結合原始圖像和預測的深度圖,利用ARCore Depth Lab的AR交互功能和Unity開發示例實現不依賴于Depth API的Android手機端側AR交互系統。
技術領域
本發明涉及三維場景感知領域,具體為基于深度學習的Android手機端側AR交互系統。
背景技術
近年來,隨著深度學習和神經網絡技術的迅速發展,計算機視覺領域的相關應用得到了突飛猛進的進展。與此同時,人們對于視覺相關手機應用的娛樂化需求也越來越高。人們不再滿足于與簡單的二維圖像中的場景進行互動,開始希望可以與立體的三維場景進行更深層次的交互。在實現與三維場景交互的過程中,深度估計作為三維感知的關鍵一環,起到至關重要的作用。傳統的相機設備在拍攝圖像和視頻時,只能獲得有限的2D圖像信息,缺失了真實三維世界中的深度信息,而采用雷達、RGBD相機等測距設備又存在著成本高昂、體積較大等缺點。除此之外,目前精度較高的單目深度估計算法普遍依賴于高性能的算力環境,在非理想的實驗環境下難以取得較好的深度估計效果,不能夠良好的部署到移動端,暴露出了其推廣應用的局限性。因此,一個不依賴于高性能算力環境和測距設備并可以直接部署到移動端上來實現實時3D場景交互功能的交互系統將會有很大的應用前景。
現有的二維視頻特效技術如Tik Tok等短視頻編輯器上的特效技術對視頻二次創作的效果存在著一定的局限性。例如,當用戶欲對視頻進行特定場景的特效加持(如下雪)時,傳統的二維視頻技術只能將靜態的二維圖片與人物拼接在一起,這對于視頻的效果是生硬且不利的。本發明可以根據深度估計的結果直接構造3D場景,并加入模擬的特效,可以更好的體現視頻中環境的深度層次變化,使得視頻更真實、生動和形象,提高視頻的觀影感受。
本發明就是為了在手機端的有限算力條件下,利用輕量化的單目深度估計網絡,在手機端側的AR場景中實時計算場景深度,最大程度還原真實場景。在此基礎上,利用Unity等渲染引擎制作特效,本發明可實現真實環境下通過設置虛擬物體來達成人與環境的交互效果。
發明內容
本發明的目的在于運用更成熟的算法訓練模型能從簡單的2D視頻輸入中得到更加準確的深度信息,解決單目相機系統下的深度估計問題,并欲解決傳統方法下單目深度估計在精度和效率上的缺陷,提出魯棒性好、精度高、效率快的輕量化單目深度估計網絡,突破目前高精度單目深度估計算法對于高性能的算例環境的依賴,并著眼于實際應用,探索該方法應用在手機端側AR、VR場景中的可能性。除滿足娛樂需求外,在未來的自動駕駛、智能醫療、軍事作戰中都有廣泛應用前景。
為實現上述目的,本發明提供如下技術方案:從獲取的單目圖像中實時估計稠密深度圖,利用深度學習模型計算得到圖像中每個像素點的深度信息,最后基于該深度信息的輔助,利用Unity軟件制作三維特效以實現虛擬物體在精確位置的生成和人機交互,以面向AR/VR的實際應用場景。本發明通過安卓開發,結合Pytorch mobile框架,將算法部署到手機移動端側,實現在手機端側的實時交互。
具體來說:
a)獲取訓練/測試數據:采用開源數據集例如NYU-Depth V2進行大規模網絡訓練,采用Kinect DK相機在室內拍攝視頻,并自動生成深度圖作為監督信息,利用單目相機所拍攝視頻作為輸入測試樣例;
b)設計單目深度估計算法:采用AR Core框架構建應用,使用AR Core返回的參數作為相機參數的初始值,結合網絡調整相應參數得到相機位姿,作為幀間深度估計的幾何約束的基礎。利用預訓練的輕量化網絡EfficientNet做深度預測的主干網絡,在此基礎上對網絡的損失函數加以設計,并在數據集上進行訓練;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西北工業大學,未經西北工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210541388.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:涼棚架防積水機構及涼棚架
- 下一篇:柔性玻璃抗拉強度的檢測方法





