[發明專利]進行自動語音應答處理的方法、裝置、設備及存儲介質有效
| 申請號: | 202010114987.5 | 申請日: | 2020-02-25 |
| 公開(公告)號: | CN111327772B | 公開(公告)日: | 2021-09-17 |
| 發明(設計)人: | 原俊;郭潤增;黃家宇;吳志偉;張穎;耿志軍 | 申請(專利權)人: | 廣州騰訊科技有限公司 |
| 主分類號: | G10L15/22 | 分類號: | G10L15/22;H04M3/493;G10L15/24;G10L15/26;G10L17/22;G06F16/332;G06F16/335;G06F16/635;G06F16/64;G06F16/683;G06K9/00 |
| 代理公司: | 北京三高永信知識產權代理有限責任公司 11138 | 代理人: | 祝亞男 |
| 地址: | 510310 廣東省廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 進行 自動 語音 應答 處理 方法 裝置 設備 存儲 介質 | ||
本申請公開了一種進行自動語音應答處理的方法、裝置、設備及存儲介質,屬于互聯網技術領域。所述方法包括:獲取用戶的圖像數據;基于所述圖像數據和預先訓練的用戶屬性狀態分析模型,確定所述用戶的屬性狀態信息;基于所述屬性狀態信息和預先訓練的交互風格分析模型,確定對所述用戶進行自動語音應答的目標交互風格信息;基于所述目標交互風格信息,進行自動語音應答處理。本申請通過獲取用戶的屬性狀態信息,確定對應的交互風格信息,再根據確定的交互風格信息與用戶進行自動語音應答,從而,提高了自動語音應答的靈活性。
技術領域
本申請涉及互聯網技術領域,特別涉及一種進行自動語音應答處理的方法、裝置、設備及存儲介質。
背景技術
隨著人工智能的發展,現在越來越多的設備可實現與用戶進行語音互動的功能,例如,智能機器人可以與用戶進行對話溝通。
在現有技術中,各種設備可以通過語音識別技術識別用戶的語音,然后根據預先訓練的語音對話模型,確定與用戶的對話內容,最后通過終端播放對話內容的音頻,從而完成與用戶的語音互動。
在實現本申請的過程中,發明人發現現有技術至少存在以下問題:終端與用戶進行語音互動時,播放的音頻對應的語音風格單一,與所有用戶都是用相同的語音風格進行對話,進行自動語音應答的靈活性較差。
發明內容
本申請實施例提供了一種進行自動語音應答處理的方法、裝置、設備及存儲介質,能夠增加終端與用戶進行語音互動時,播放的音頻對應的語音風格的多樣性,所述技術方案如下:
一方面,提供了一種進行自動語音應答處理的方法,所述方法包括:
獲取用戶的圖像數據;
基于所述圖像數據和預先訓練的用戶屬性狀態分析模型,確定所述用戶的屬性狀態信息;
基于所述屬性狀態信息和預先訓練的交互風格分析模型,確定對所述用戶進行自動語音應答的目標交互風格信息;
基于所述目標交互風格信息,進行自動語音應答處理。
可選的,所述獲取用戶的圖像數據之后,所述方法還包括:
對所述用戶的圖像數據進行人臉識別;
基于所述用戶的圖像數據,確定所述用戶的賬戶,獲取所述賬戶的歷史操作信息;
所述基于所述屬性狀態信息和預先訓練的交互風格分析模型,確定對所述用戶進行自動語音應答的目標交互風格信息,包括:
基于所述屬性狀態信息、所述歷史操作信息和預先訓練的交互風格分析模型,確定對所述用戶進行自動語音應答的目標交互風格信息。
可選的,所述目標交互風格信息包括目標語音風格信息;
所述基于所述目標語音風格信息,進行自動語音應答處理,包括:
獲取用戶語音音頻;
對所述用戶音頻進行識別,生成對應的文字;
基于所述文字,以及預先訓練的對話模型,確定目標交互文字;
基于語音合成算法,與所述目標語音風格信息對應的調節參數,將目標交互文字轉化成與所述目標語音風格信息對應的目標應答語音音頻;
播放所述目標應答語音音頻。
可選的,所述目標交互風格信息還包括目標背景音樂風格信息;
所述方法還包括:
播放所述目標背景音樂風格信息對應的背景音樂。
可選的,所述目標交互風格信息還包括目標顯示畫面風格信息;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州騰訊科技有限公司,未經廣州騰訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010114987.5/2.html,轉載請聲明來源鉆瓜專利網。





