[發明專利]音視頻結合的定位方法、裝置、電子設備以及存儲介質有效
| 申請號: | 202011457311.2 | 申請日: | 2020-12-11 |
| 公開(公告)號: | CN112614508B | 公開(公告)日: | 2022-12-06 |
| 發明(設計)人: | 郝昊;李驪 | 申請(專利權)人: | 北京華捷艾米科技有限公司 |
| 主分類號: | G10L25/51 | 分類號: | G10L25/51;G10L21/0216;G10L21/0208;G06T7/277;G06T7/215;G06T7/194;G06V40/16;G06V40/20 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 李慧引 |
| 地址: | 100193 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 視頻 結合 定位 方法 裝置 電子設備 以及 存儲 介質 | ||
本申請提供一種音視頻結合的定位方法、裝置、電子設備以及存儲介質。其中,在音視頻結合的定位方法中,首先獲取由圖像采集部件采集得到的用戶圖像,再利用用戶圖像,計算得到用戶的嘴部坐標。接著獲取用戶到圖像采集部件的距離,并利用嘴部坐標以及用戶到圖像采集部件的距離,計算得到用戶與圖像采集部件的俯仰角。同時獲取由音頻采集部件采集的用戶的語音信號,然后基于音頻采集部件的坐標系,計算得到用戶與圖像采集部件的俯仰角所對應的用戶與音頻采集部件的俯仰角。最后利用語音信號以及用戶與音頻采集部件的俯仰角,對用戶進行定位。
技術領域
本申請涉及人工智能技術領域,尤其涉及一種音視頻結合的定位方法、裝置、電子設備以及存儲介質。
背景技術
近年來,隨著科技的發展,越來越多的人工智能設備出現在人們生活中,這些人工智能設備可以與用戶進行交互,執行用戶下達的各種指令,極大的方便了用戶的生活或者工作。這些人工智能設備在與用戶進行交互時,需要先對用戶進行定位,才能準確的與相應的用戶進行交互。
在現有技術中,語音識別或者圖像識別這兩種定位方法在人工智能設備應用中還處于兩個相對獨立的領域。因此,人工智能設備在對用戶進行定位時,一般都是通過語音識別或者圖像識別其中的一種方式對用戶進行定位。然而,在復雜的聲學環境中,通過語音識別對用戶進行定位時,定位結果就會不太準確,或者在人數比較多的環境中,通過圖像識別對用戶進行定位時,定位結果同樣會不太準確。
發明內容
有鑒于此,本申請提供一種音視頻結合的定位方法、裝置、電子設備以及存儲介質,以解決現有技術中通常通過語音識別或者圖像識別其中的一種方式對用戶進行定位,導致定位結果不準確的問題。
為實現上述目的,本申請提供如下技術方案:
本申請第一方面公開了一種音視頻結合的定位方法,包括:
獲取由圖像采集部件采集得到的用戶圖像;
利用所述用戶圖像,計算得到所述用戶的嘴部坐標;
獲取所述用戶到所述圖像采集部件的距離;
利用所述嘴部坐標以及所述用戶到所述圖像采集部件的距離,計算得到所述用戶與所述圖像采集部件的俯仰角;
獲取由音頻采集部件采集的所述用戶的語音信號;
基于所述音頻采集部件的坐標系,計算得到所述用戶與所述圖像采集部件的俯仰角所對應的用戶與所述音頻采集部件的俯仰角;
利用所述語音信號以及所述用戶與所述音頻采集部件的俯仰角,對所述用戶進行定位。
可選的,上述的方法,所述利用所述用戶圖像,計算得到所述用戶的嘴部坐標,包括:
從所述用戶圖像中提取出人體輪廓圖;
基于所述人體輪廓圖,獲取所述用戶的人體姿態參數;
利用所述人體姿態參數進行人體姿態估計,得到所述用戶的骨架模型;
獲取所述骨架模型中的頭部坐標以及肩部中心關節點坐標,并利用所述頭部坐標以及所述肩部中心關節點坐標計算得到所述嘴部坐標。
可選的,上述的方法,所述基于所述人體輪廓圖,獲取所述用戶的人體姿態參數,包括:
獲取所述人體輪廓圖的初始人體姿態參數;
基于所述初始人體姿態參數,預測得到多個當前時刻的人體姿態參數;
利用最優化算法,從多個所述當前時刻的人體姿態參數中查找出最匹配的人體姿態參數,作為所述用戶的人體姿態參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京華捷艾米科技有限公司,未經北京華捷艾米科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011457311.2/2.html,轉載請聲明來源鉆瓜專利網。





