[發明專利]控制裝置、語音交互裝置、語音識別服務器以及存儲介質有效
| 申請號: | 201911225321.0 | 申請日: | 2019-12-04 |
| 公開(公告)號: | CN111354351B | 公開(公告)日: | 2023-06-02 |
| 發明(設計)人: | 渡部生圣 | 申請(專利權)人: | 豐田自動車株式會社 |
| 主分類號: | G10L15/18 | 分類號: | G10L15/18;G10L15/22;G10L15/30 |
| 代理公司: | 中原信達知識產權代理有限責任公司 11219 | 代理人: | 韓峰;孫志湧 |
| 地址: | 日本愛知*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 控制 裝置 語音 交互 識別 服務器 以及 存儲 介質 | ||
本發明涉及控制裝置、語音交互裝置、語音識別服務器以及存儲介質。一種控制裝置,其包括:計算單元,該計算單元被配置成控制包括語音識別模型的語音交互裝置,其中,當與對象者的會話開始時,計算單元指示語音交互裝置以通過從語音識別模型中已經暫時選擇的一個語音識別模型來首先執行語音識別和響應生成,基于對象者在語音識別服務器中的話語的語音識別結果來確定在語音交互裝置中保持的語音識別模型中的被估計為最佳的語音識別模型,并且當被估計為最佳的語音識別模型和已經被暫時選擇的一個語音識別模型彼此不同時,指示語音交互裝置以將語音識別模型切換到被估計為最佳的語音識別模型并執行語音識別和響應生成。
技術領域
本公開涉及一種控制裝置、語音交互裝置、語音識別服務器以及程序。
背景技術
已知一種語音交互系統,其用于分析作為會話伙伴的對象者(用戶)發出的話語,掌握話語的含義和內容,根據話語的類型生成響應,并且通過語音或文本將響應呈現給語音對象識別對象者。日本未經審查的專利申請特開No.2018-109663和2018-045190公開語音交互系統,該語音交互系統被配置成通過語音識別的精度較高的服務器側和響應速度較高的本地(終端設備)側以劃分方式執行會話處理。
發明內容
在日本未經審查的專利申請特開No.2018-109663和第2018-045190中公開的技術中,為了提高響應的準確性,需要在服務器側執行語音識別和響應生成。然而,在這種情況下,存在由于終端設備與服務器之間的通信速率的限制而做出響應所花費的時間相對較長的問題。在日本未經審查的專利申請特開No.2018-045190中,在對象者已經發言之后發送服務器生成的響應所需的時間段(延遲時間段)中,語音交互系統通過以諸如做出令人滿意的回應或重復對象者的話語的這種簡單的方式響應來贏得時間。但是,當語音交互系統在每個延遲時間段做出響應以贏得時間時,會話變成不自然的會話,并且可能無法充分緩解對象者在延遲時間段內感到的壓力。
鑒于上述情況做出本公開,并且本公開旨在提供一種語音交互裝置的控制裝置、語音交互裝置、語音識別服務器以及程序,其能夠減少響應所需時間并減少會話的不自然感。
根據本公開的一個實施例的控制裝置包括:計算單元,該計算單元被配置成控制包括多個語音識別模型的語音交互裝置,其中,當與對象者的會話開始時,計算單元指示語音交互裝置通過從多個語音識別模型中已經暫時選擇的一個語音識別模型來首先執行語音識別和響應生成,基于在語音識別服務器中的對象者發出的話語的語音識別結果來確定在語音交互裝置中保持的多個語音識別模型中被估計為最佳的語音識別模型,并且當被估計為最佳的語音識別模型和已經被暫時選擇的一個語音識別模型彼此不同時,指示語音交互裝置以將語音識別模型切換到被估計為最佳的語音識別模型并執行語音識別和響應生成。
當與對象者的會話開始時,控制裝置的計算單元指示語音交互裝置以通過已經從被包括在語音交互裝置中的多個語音識別模型中暫時選擇的一個語音識別模型來首先執行語音識別和響應生成。根據該過程,可以減少語音交互裝置的響應所需的時間。然后,計算單元基于關于在語音識別服務器中對象者的話語的語音識別的結果,確定在語音交互裝置中保持的多個語音識別模型當中的被估計為最佳的語音識別模型。暫時選擇的一個語音識別模型被切換為基于語音識別服務器的語音識別結果估計為最佳的確定的語音識別模型,其中語音識別的準確性很高,由此,可以減少響應的不自然。
此外,已經被暫時選擇的語音識別模型優選地是基于過去的會話信息已經被確定為包括在語音交互裝置中的多個語音識別模型當中的最頻繁使用的語音識別模型。根據該技術,可以降低已經被暫時選擇的一個語音識別模型的響應給予對象者陌生感的程度。
此外,當語音交互裝置將語音識別模型切換到估計為最佳的語音識別模型時,計算單元優選使語音交互裝置將語音識別模型從其與已經暫時選擇的一個語音識別模型的相似度水平高的語音識別模型按階段地切換成被估計為最佳的語音識別模型。根據該技術,與語音識別模型突然切換到被估計為最佳的模型的情況相比,可以減少對象者在會話中感覺到的陌生感。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于豐田自動車株式會社,未經豐田自動車株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911225321.0/2.html,轉載請聲明來源鉆瓜專利網。





