[發(fā)明專利]全雙工語音控制方法、裝置、存儲介質(zhì)及語音設(shè)備在審
| 申請?zhí)枺?/td> | 202010881215.4 | 申請日: | 2020-08-27 |
| 公開(公告)號: | CN112133296A | 公開(公告)日: | 2020-12-25 |
| 發(fā)明(設(shè)計)人: | 陳士勇 | 申請(專利權(quán))人: | 北京小米移動軟件有限公司 |
| 主分類號: | G10L15/20 | 分類號: | G10L15/20;G10L15/22;G06K9/00 |
| 代理公司: | 北京英創(chuàng)嘉友知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11447 | 代理人: | 李柯瑩 |
| 地址: | 100085 北京市海淀*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 雙工 語音 控制 方法 裝置 存儲 介質(zhì) 設(shè)備 | ||
本公開涉及一種全雙工語音控制方法、裝置、存儲介質(zhì)及語音設(shè)備,解決了相關(guān)技術(shù)中全雙工語音的交互過程中,容易受環(huán)境因素影響,導(dǎo)致誤識別誤執(zhí)行的技術(shù)問題。該方法包括:在語音設(shè)備處于收音狀態(tài)的情況下,響應(yīng)于接收到目標(biāo)對象發(fā)出的語音指令,采集目標(biāo)對象的生物特征信息;在生物特征信息與預(yù)設(shè)特征信息相匹配的情況下,獲取目標(biāo)對象的發(fā)音方向信息;根據(jù)發(fā)音方向信息確定目標(biāo)對象的發(fā)音方向是否朝向語音設(shè)備;在目標(biāo)對象的發(fā)音方向朝向語音設(shè)備的情況下,執(zhí)行語音指令對應(yīng)的操作,并延長語音設(shè)備的收音時長;在目標(biāo)對象的發(fā)音方向未朝向語音設(shè)備的情況下,丟棄語音指令對應(yīng)的操作,并縮短語音設(shè)備的收音時長。
技術(shù)領(lǐng)域
本公開涉及語音交互技術(shù)領(lǐng)域,尤其涉及一種全雙工語音控制方法、裝置、存儲介質(zhì)及語音設(shè)備。
背景技術(shù)
語音交互已經(jīng)成為人們必不可少的人家交互方式,可實現(xiàn)一句話開燈、調(diào)電視臺等,因此如何提高語音交互的體驗,讓語音交互更自然,已成為用戶關(guān)注的話題,而全雙工語音就是讓語音交互更自然的一個方向。
相關(guān)技術(shù)中,全雙工語音的原理是始終打開mic收音,或者將收音時間延長在一定的收音時間段內(nèi),存在容易受環(huán)境因素影響,導(dǎo)致誤識別誤執(zhí)行的問題。
發(fā)明內(nèi)容
為克服相關(guān)技術(shù)中存在的技術(shù)問題,本公開提供一種全雙工語音控制方法、裝置、存儲介質(zhì)及語音設(shè)備。
根據(jù)本公開實施例的第一方面,提供一種全雙工語音控制方法,包括:
在語音設(shè)備處于收音狀態(tài)的情況下,響應(yīng)于接收到目標(biāo)對象發(fā)出的語音指令,采集所述目標(biāo)對象的生物特征信息;
在所述生物特征信息與預(yù)設(shè)特征信息相匹配的情況下,獲取所述目標(biāo)對象的發(fā)音方向信息;
根據(jù)所述發(fā)音方向信息確定所述目標(biāo)對象的發(fā)音方向是否朝向所述語音設(shè)備;
在所述目標(biāo)對象的發(fā)音方向朝向所述語音設(shè)備的情況下,執(zhí)行所述語音指令對應(yīng)的操作,并延長所述語音設(shè)備的收音時長;
在所述目標(biāo)對象的發(fā)音方向未朝向所述語音設(shè)備的情況下,丟棄所述語音指令對應(yīng)的操作,并縮短所述語音設(shè)備的收音時長。
可選的,所述采集所述目標(biāo)對象的生物特征信息,包括:
根據(jù)所述語音指令采集所述目標(biāo)對象的聲紋信息。
可選的,所述獲取所述目標(biāo)對象的發(fā)音方向信息,包括:
通過攝像頭采集所述目標(biāo)對象的影像信息,并根據(jù)所述影像信息確定所述目標(biāo)對象的人臉特征信息以及口型特征信息;
根據(jù)所述影像信息確定所述目標(biāo)對象的面部朝向,所述發(fā)音方向信息包括所述面部朝向。
可選的,所述采集所述目標(biāo)對象的生物特征信息,包括:
通過攝像頭采集所述目標(biāo)對象的影像信息,并根據(jù)所述影像信息確定所述目標(biāo)對象的人臉特征信息以及口型特征信息;
采集所述目標(biāo)對象的人臉特征信息以及口型特征信息。
可選的,所述獲取所述目標(biāo)對象的發(fā)音方向信息,包括:
獲取所述采集的所述目標(biāo)對象的人臉特征信息以及口型特征信息;
根據(jù)所述影像信息確定所述目標(biāo)對象的面部朝向,所述發(fā)音方向信息包括所述面部朝向。
可選的,所述延長所述語音設(shè)備的收音時長,包括:
根據(jù)預(yù)設(shè)的增長梯度延長所述收音時長,所述增長梯度包括多個增長比例,并且后一次的增長比例大于前一次的增長比例;
所述縮短所述語音設(shè)備的收音時長,包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京小米移動軟件有限公司,未經(jīng)北京小米移動軟件有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010881215.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





