[發明專利]音視頻結合的定位方法、裝置、電子設備以及存儲介質有效

申請號：	202011457311.2	申請日：	2020-12-11
公開（公告）號：	CN112614508B	公開（公告）日：	2022-12-06
發明（設計）人：	郝昊;李驪	申請（專利權）人：	北京華捷艾米科技有限公司
主分類號：	G10L25/51	分類號：	G10L25/51;G10L21/0216;G10L21/0208;G06T7/277;G06T7/215;G06T7/194;G06V40/16;G06V40/20
代理公司：	北京集佳知識產權代理有限公司 11227	代理人：	李慧引
地址：	100193 北京市海淀區***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	視頻結合定位方法裝置電子設備以及存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本申請提供一種音視頻結合的定位方法、裝置、電子設備以及存儲介質。其中，在音視頻結合的定位方法中，首先獲取由圖像采集部件采集得到的用戶圖像，再利用用戶圖像，計算得到用戶的嘴部坐標。接著獲取用戶到圖像采集部件的距離，并利用嘴部坐標以及用戶到圖像采集部件的距離，計算得到用戶與圖像采集部件的俯仰角。同時獲取由音頻采集部件采集的用戶的語音信號，然后基于音頻采集部件的坐標系，計算得到用戶與圖像采集部件的俯仰角所對應的用戶與音頻采集部件的俯仰角。最后利用語音信號以及用戶與音頻采集部件的俯仰角，對用戶進行定位。

技術領域

本申請涉及人工智能技術領域，尤其涉及一種音視頻結合的定位方法、裝置、電子設備以及存儲介質。

背景技術

近年來，隨著科技的發展，越來越多的人工智能設備出現在人們生活中，這些人工智能設備可以與用戶進行交互，執行用戶下達的各種指令，極大的方便了用戶的生活或者工作。這些人工智能設備在與用戶進行交互時，需要先對用戶進行定位，才能準確的與相應的用戶進行交互。

在現有技術中，語音識別或者圖像識別這兩種定位方法在人工智能設備應用中還處于兩個相對獨立的領域。因此，人工智能設備在對用戶進行定位時，一般都是通過語音識別或者圖像識別其中的一種方式對用戶進行定位。然而，在復雜的聲學環境中，通過語音識別對用戶進行定位時，定位結果就會不太準確，或者在人數比較多的環境中，通過圖像識別對用戶進行定位時，定位結果同樣會不太準確。

發明內容

有鑒于此，本申請提供一種音視頻結合的定位方法、裝置、電子設備以及存儲介質，以解決現有技術中通常通過語音識別或者圖像識別其中的一種方式對用戶進行定位，導致定位結果不準確的問題。

為實現上述目的，本申請提供如下技術方案：

本申請第一方面公開了一種音視頻結合的定位方法，包括：

獲取由圖像采集部件采集得到的用戶圖像；

利用所述用戶圖像，計算得到所述用戶的嘴部坐標；

獲取所述用戶到所述圖像采集部件的距離；

利用所述嘴部坐標以及所述用戶到所述圖像采集部件的距離，計算得到所述用戶與所述圖像采集部件的俯仰角；

獲取由音頻采集部件采集的所述用戶的語音信號；

基于所述音頻采集部件的坐標系，計算得到所述用戶與所述圖像采集部件的俯仰角所對應的用戶與所述音頻采集部件的俯仰角；

利用所述語音信號以及所述用戶與所述音頻采集部件的俯仰角，對所述用戶進行定位。

可選的，上述的方法，所述利用所述用戶圖像，計算得到所述用戶的嘴部坐標，包括：