[發(fā)明專利]語音交互方法、裝置、計(jì)算機(jī)可讀存儲介質(zhì)及電子設(shè)備在審
| 申請?zhí)枺?/td> | 202011215655.2 | 申請日: | 2020-11-04 |
| 公開(公告)號: | CN112397065A | 公開(公告)日: | 2021-02-23 |
| 發(fā)明(設(shè)計(jì))人: | 朱長寶 | 申請(專利權(quán))人: | 深圳地平線機(jī)器人科技有限公司 |
| 主分類號: | G10L15/22 | 分類號: | G10L15/22;G10L15/26;G10L15/25;G10L15/06;G06N20/00 |
| 代理公司: | 北京思源智匯知識產(chǎn)權(quán)代理有限公司 11657 | 代理人: | 毛麗琴 |
| 地址: | 518052 廣東省深圳市南山區(qū)粵海街道高新區(qū)*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語音 交互 方法 裝置 計(jì)算機(jī) 可讀 存儲 介質(zhì) 電子設(shè)備 | ||
本公開實(shí)施例公開了一種語音交互方法和裝置,其中,該方法包括:獲取目標(biāo)空間內(nèi)的攝像設(shè)備拍攝的視頻和至少一個音頻采集設(shè)備采集的至少一路音頻;基于至少一路音頻,確定目標(biāo)空間內(nèi)的每個音區(qū)分別對應(yīng)的待識別音頻;基于視頻和至少一路待識別音頻,從目標(biāo)空間確定目標(biāo)音區(qū);對得到的至少一路待識別音頻進(jìn)行語音識別,得到識別結(jié)果;控制目標(biāo)音區(qū)的語音交互設(shè)備基于識別結(jié)果在預(yù)設(shè)模式下進(jìn)行語音交互。本公開實(shí)施例可以實(shí)現(xiàn)通過圖像和語音融合的方法進(jìn)行目標(biāo)對象檢測,根據(jù)檢測結(jié)果自動進(jìn)入目標(biāo)對象對應(yīng)的語音控制模式,提高對各類對象進(jìn)行語音識別及相應(yīng)的語音控制的針對性,有助于防止在語音控制時,因識別到目標(biāo)對象的聲音而造成的誤操作。
技術(shù)領(lǐng)域
本公開涉及計(jì)算機(jī)技術(shù)領(lǐng)域,尤其是一種語音交互方法、裝置、計(jì)算機(jī)可讀存儲介質(zhì)及電子設(shè)備。
背景技術(shù)
近年來,隨著語音產(chǎn)品的不斷推廣,語音輸入作為一種重要的人機(jī)交互手段,被越來越多的人們所接受。例如在智能汽車領(lǐng)域,語音控制作為汽車智能化的表現(xiàn)之一,得到了極大的重視。通過語音控制功能,用戶可免去手動操作,而僅僅利用語音就能夠控制車機(jī)執(zhí)行特定操作,如打開或關(guān)閉空調(diào),設(shè)置導(dǎo)航,修改導(dǎo)航,開啟音樂播放等,極大地提升了用戶的使用體驗(yàn)。
發(fā)明內(nèi)容
本公開的實(shí)施例提供了一種語音交互方法、裝置、計(jì)算機(jī)可讀存儲介質(zhì)及電子設(shè)備。
本公開的實(shí)施例提供了一種語音交互方法,該方法包括:獲取目標(biāo)空間內(nèi)的攝像設(shè)備拍攝的視頻和至少一個音頻采集設(shè)備采集的至少一路音頻;基于至少一路音頻,確定目標(biāo)空間內(nèi)的每個音區(qū)分別對應(yīng)的待識別音頻;基于視頻和至少一路待識別音頻,從目標(biāo)空間確定目標(biāo)音區(qū);對得到的至少一路待識別音頻進(jìn)行語音識別,得到識別結(jié)果;控制目標(biāo)音區(qū)的語音交互設(shè)備基于識別結(jié)果在預(yù)設(shè)模式下進(jìn)行語音交互。
根據(jù)本公開實(shí)施例的另一個方面,提供了一種語音交互裝置,該裝置包括:獲取模塊,用于獲取目標(biāo)空間內(nèi)的攝像設(shè)備拍攝的視頻和至少一個音頻采集設(shè)備采集的至少一路音頻;第一確定模塊,用于基于至少一路音頻,確定目標(biāo)空間內(nèi)的每個音區(qū)分別對應(yīng)的待識別音頻;第二確定模塊,用于基于視頻和至少一路待識別音頻,從目標(biāo)空間確定目標(biāo)音區(qū);識別模塊,用于對得到的至少一路待識別音頻進(jìn)行語音識別,得到識別結(jié)果;控制模塊,用于控制目標(biāo)音區(qū)的語音交互設(shè)備基于識別結(jié)果在預(yù)設(shè)模式下進(jìn)行語音交互。
根據(jù)本公開實(shí)施例的另一個方面,提供了一種計(jì)算機(jī)可讀存儲介質(zhì),計(jì)算機(jī)可讀存儲介質(zhì)存儲有計(jì)算機(jī)程序,計(jì)算機(jī)程序用于執(zhí)行上述語音交互方法。
根據(jù)本公開實(shí)施例的另一個方面,提供了一種電子設(shè)備,電子設(shè)備包括:處理器;用于存儲處理器可執(zhí)行指令的存儲器;處理器,用于從存儲器中讀取可執(zhí)行指令,并執(zhí)行指令以實(shí)現(xiàn)上述語音交互方法。
基于本公開上述實(shí)施例提供的語音交互方法、裝置、計(jì)算機(jī)可讀存儲介質(zhì)及電子設(shè)備,通過獲取對目標(biāo)空間拍攝的視頻和采集的至少一路音頻,對視頻和音頻進(jìn)行聯(lián)合識別,從目標(biāo)空間確定目標(biāo)音區(qū),以及對音頻進(jìn)行語音識別,得到識別結(jié)果,最后控制目標(biāo)音區(qū)的語音交互設(shè)備基于識別結(jié)果在預(yù)設(shè)模式下進(jìn)行語音交互,從而實(shí)現(xiàn)了通過圖像和語音融合的方法進(jìn)行目標(biāo)對象檢測,根據(jù)檢測結(jié)果自動進(jìn)入目標(biāo)對象對應(yīng)的語音控制模式,提高了對各類對象進(jìn)行語音識別及相應(yīng)的語音控制的針對性,有助于防止在語音控制時,因識別到目標(biāo)對象的聲音而造成的誤操作。
下面通過附圖和實(shí)施例,對本公開的技術(shù)方案做進(jìn)一步的詳細(xì)描述。
附圖說明
通過結(jié)合附圖對本公開實(shí)施例進(jìn)行更詳細(xì)的描述,本公開的上述以及其他目的、特征和優(yōu)勢將變得更加明顯。附圖用來提供對本公開實(shí)施例的進(jìn)一步理解,并且構(gòu)成說明書的一部分,與本公開實(shí)施例一起用于解釋本公開,并不構(gòu)成對本公開的限制。在附圖中,相同的參考標(biāo)號通常代表相同部件或步驟。
圖1是本公開所適用的系統(tǒng)圖。
圖2是本公開一示例性實(shí)施例提供的語音交互方法的流程示意圖。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳地平線機(jī)器人科技有限公司,未經(jīng)深圳地平線機(jī)器人科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011215655.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





