[發明專利]人機交互方法、裝置、電子設備及存儲介質在審
| 申請號: | 202010900822.0 | 申請日: | 2020-08-31 |
| 公開(公告)號: | CN112133307A | 公開(公告)日: | 2020-12-25 |
| 發明(設計)人: | 張剛;朱凱華;黃榮升 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G10L15/26 | 分類號: | G10L15/26;G10L17/22;G06F3/16;G06F40/35 |
| 代理公司: | 北京鴻德海業知識產權代理事務所(普通合伙) 11412 | 代理人: | 谷春靜 |
| 地址: | 100085 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 人機交互 方法 裝置 電子設備 存儲 介質 | ||
本申請公開了人機交互方法、裝置、電子設備及存儲介質,涉及人工智能、語音技術及深度學習領域,其中的方法可包括:當檢測到用戶語音中的喚醒詞時,執行喚醒操作;根據用戶語音中的需求詞確定出用戶意圖,用戶語音中同時包括喚醒詞和需求詞;獲取用戶語音為人機交互需求表達的聲學置信度;若根據聲學置信度及用戶意圖確定出本次喚醒為一次真實的人機交互需求表達,則對用戶語音進行響應。應用本申請所述方案,可提升交互效率等。
技術領域
本申請涉及計算機應用技術,特別涉及人工智能、語音技術及深度學習領域的人機交互方法、裝置、電子設備及存儲介質。
背景技術
隨著語音識別技術的發展,語音交互已經成為一種廣泛使用的人機交互方式。
由于設備(即機器)并不是一直處于收錄用戶語音和識別狀態,因此用戶與設備交互之前通常需要先喚醒設備,設備被喚醒后,會進行應答(如播報應答語音),表示設備已經被喚醒,接下來用戶才能說出真正的需求詞(query),并由設備針對用戶的query進行響應等。
可以看出,采用上述方式,即便是讓當前播放的音樂“暫停”這樣一個簡單的需求,也需要經歷至少2輪對話才能完成,交互速度慢,交互效率低。
發明內容
本申請提供了人機交互方法、裝置、電子設備及存儲介質。
一種人機交互方法,包括:
當檢測到用戶語音中的喚醒詞時,執行喚醒操作;
根據所述用戶語音中的需求詞確定出用戶意圖,所述用戶語音中同時包括所述喚醒詞和所述需求詞;
獲取所述用戶語音為人機交互需求表達的聲學置信度;
若根據所述聲學置信度及所述用戶意圖確定出本次喚醒為一次真實的人機交互需求表達,則對所述用戶語音進行響應。
一種人機交互裝置,包括:語音處理模塊以及語音響應模塊;
所述語音處理模塊,用于當檢測到用戶語音中的喚醒詞時,執行喚醒操作,根據所述用戶語音中的需求詞確定出用戶意圖,所述用戶語音中同時包括所述喚醒詞和所述需求詞,獲取所述用戶語音為人機交互需求表達的聲學置信度;
所述語音響應模塊,用于當根據所述聲學置信度及所述用戶意圖確定出本次喚醒為一次真實的人機交互需求表達時,對所述用戶語音進行響應。
一種電子設備,包括:
至少一個處理器;以及
與所述至少一個處理器通信連接的存儲器;其中,
所述存儲器存儲有可被所述至少一個處理器執行的指令,所述指令被所述至少一個處理器執行,以使所述至少一個處理器能夠執行如以上所述的方法。
一種存儲有計算機指令的非瞬時計算機可讀存儲介質,所述計算機指令用于使所述計算機執行如以上所述的方法。
上述申請中的一個實施例具有如下優點或有益效果:用戶語音中可同時包括喚醒詞和需求詞,在檢測到用戶語音中的喚醒詞并執行喚醒操作后,可直接對用戶語音中的需求詞進行響應,從而減少了人機交互的對話輪次,進而提升了交互速度和交互效率,而且,可綜合用戶語音為人機交互需求表達的聲學置信度以及根據需求詞確定出的用戶意圖來確定本次喚醒是否為一次真實的人機交互需求表達,只有當為真實的人機交互需求表達時,才會對用戶語音進行響應,從而確保了人機交互結果的準確性等。
應當理解,本部分所描述的內容并非旨在標識本公開的實施例的關鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。
附圖說明
附圖用于更好地理解本方案,不構成對本申請的限定。其中:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010900822.0/2.html,轉載請聲明來源鉆瓜專利網。





