[發(fā)明專利]語音交互方法、裝置、電子設(shè)備、介質(zhì)和計算機程序產(chǎn)品在審
| 申請?zhí)枺?/td> | 202011551823.5 | 申請日: | 2020-12-24 |
| 公開(公告)號: | CN112528004A | 公開(公告)日: | 2021-03-19 |
| 發(fā)明(設(shè)計)人: | 馮博豪 | 申請(專利權(quán))人: | 北京百度網(wǎng)訊科技有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/33;G06F16/338 |
| 代理公司: | 北京市漢坤律師事務(wù)所 11602 | 代理人: | 姜浩然;吳麗麗 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語音 交互 方法 裝置 電子設(shè)備 介質(zhì) 計算機 程序 產(chǎn)品 | ||
本公開提供了一種語音交互的方法、裝置、電子設(shè)備、計算機可讀存儲介質(zhì)和計算機程序產(chǎn)品,涉及人工智能技術(shù)領(lǐng)域,尤其涉及自然語言處理和計算機視覺。一種語音交互的方法可以包括:獲取第一語音輸入;以及至少部分基于第一語音輸入和環(huán)境信息,控制終端輸出第一語音輸出,其中,環(huán)境信息是通過對由終端處采集的圖像進(jìn)行圖像分析而動態(tài)地維護(hù)的。
技術(shù)領(lǐng)域
本公開涉及人工智能技術(shù)領(lǐng)域,尤其涉及自然語言處理和計算機視覺,具體涉及一種語音交互的方法、裝置、電子設(shè)備、計算機可讀存儲介質(zhì)和計算機程序產(chǎn)品。
背景技術(shù)
人工智能是研究使計算機來模擬人的某些思維過程和智能行為(如學(xué)習(xí)、推理、思考、規(guī)劃等)的學(xué)科,既有硬件層面的技術(shù)也有軟件層面的技術(shù)。人工智能硬件技術(shù)一般包括如傳感器、專用人工智能芯片、云計算、分布式存儲、大數(shù)據(jù)處理等技術(shù):人工智能軟件技術(shù)主要包括計算機視覺技術(shù)、語音識別技術(shù)、自然語言處理技術(shù)以及機器學(xué)習(xí)/深度學(xué)習(xí)、大數(shù)據(jù)處理技術(shù)、知識圖譜技術(shù)等幾大方向。
語音交互可以出現(xiàn)在多種產(chǎn)品中,例如智能語音助手、智能音箱、智能導(dǎo)購等。通過語音交互功能,能夠?qū)崿F(xiàn)語音上網(wǎng)、歌曲點播、了解天氣、了解時事等。
在此部分中描述的方法不一定是之前已經(jīng)設(shè)想到或采用的方法。除非另有指明,否則不應(yīng)假定此部分中描述的任何方法僅因其包括在此部分中就被認(rèn)為是現(xiàn)有技術(shù)。類似地,除非另有指明,否則此部分中提及的問題不應(yīng)認(rèn)為在任何現(xiàn)有技術(shù)中已被公認(rèn)。
發(fā)明內(nèi)容
本公開提供了一種語音交互的方法、裝置、電子設(shè)備、計算機可讀存儲介質(zhì)和計算機程序產(chǎn)品。
根據(jù)本公開的一方面,提供了一種語音交互的方法,包括:獲取第一語音輸入;以及至少部分基于第一語音輸入和環(huán)境信息,控制終端輸出第一語音輸出。其中,所述環(huán)境信息是通過對由終端處采集的圖像進(jìn)行圖像分析而動態(tài)地維護(hù)的。
根據(jù)本公開的另一方面,提供了一種語音交互的裝置,包括:圖像采集模塊,用于采集圖像;圖像分析模塊,用于對所采集的圖像進(jìn)行圖像分析以動態(tài)地維護(hù)環(huán)境信息;以及語音交互模塊,用于響應(yīng)于接收到第一語音輸入,至少部分基于所述環(huán)境信息,輸出第一語音輸出。
根據(jù)本公開的另一方面,提供了一種電子設(shè)備,包括攝像頭、揚聲器、處理器和存儲程序的存儲器,所述程序包括指令,所述指令在由所述處理器執(zhí)行時使所述電子設(shè)備執(zhí)行根據(jù)本公開的實施例的語音交互方法。
根據(jù)本公開的又一方面,提供了一種存儲程序的計算機可讀存儲介質(zhì),所述程序包括指令,所述指令在由電子設(shè)備的處理器執(zhí)行時,指示所述電子設(shè)備執(zhí)行根據(jù)本公開的實施例的語音交互方法。
根據(jù)本公開的再一方面,提供了一種計算機程序產(chǎn)品,包括計算機指令,所述計算機指令在被處理器執(zhí)行時實現(xiàn)根據(jù)本公開的實施例的語音交互方法。
根據(jù)本公開的一個或多個實施例,可以增加與用戶的語音交互能力。
應(yīng)當(dāng)理解,本部分所描述的內(nèi)容并非旨在標(biāo)識本公開的實施例的關(guān)鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。
附圖說明
附圖示例性地示出了實施例并且構(gòu)成說明書的一部分,與說明書的文字描述一起用于講解實施例的示例性實施方式。所示出的實施例僅出于例示的目的,并不限制權(quán)利要求的范圍。在所有附圖中,相同的附圖標(biāo)記指代類似但不一定相同的要素。
圖1示出了根據(jù)本公開的實施例的可以在其中實施本文描述的各種方法的示例性系統(tǒng)的示意圖;
圖2示出了根據(jù)本公開的實施例的語音交互方法的流程圖;
圖3示出了根據(jù)本公開的實施例的屬性映射步驟的示意圖;
圖4示出了根據(jù)本公開的另一實施例的語音交互方法的流程圖;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京百度網(wǎng)訊科技有限公司,未經(jīng)北京百度網(wǎng)訊科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011551823.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





