[發明專利]一種自適應語音對話方法、系統、計算機設備和存儲介質在審
| 申請號: | 202010592284.3 | 申請日: | 2020-06-24 |
| 公開(公告)號: | CN113838454A | 公開(公告)日: | 2021-12-24 |
| 發明(設計)人: | 李銘浩 | 申請(專利權)人: | 蘇寧云計算有限公司 |
| 主分類號: | G10L13/08 | 分類號: | G10L13/08;G10L13/033;G10L15/06;G10L15/16;G10L15/22;G10L25/63;G06N3/08;G06N3/04 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 210000 江蘇省南*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 自適應 語音 對話 方法 系統 計算機 設備 存儲 介質 | ||
1.一種自適應語音對話方法,其特征在于,所述方法包括:
獲取目標用戶的用戶畫像,提取該目標用戶的所有用戶固有屬性,將所有所述用戶固有屬性數值化為用戶固有屬性向量;
接收目標用戶的用戶語音,提取所述用戶語音對應的聲學參數,獲取當前的用戶情緒,將當前所述用戶情緒數值化為當前的用戶情緒向量;
識別所述用戶語音的當前語音內容,數值化為當前的詞向量;
拼接當前的所述用戶情緒向量和用戶固有屬性向量,形成當前的用戶屬性向量,存儲當前的所述用戶屬性向量和當前的所述詞向量,并配置時間標簽;
截取一段時間內的用戶屬性向量和詞向量,獲取時間相關用戶屬性向量和時間相關詞向量,所述時間相關用戶屬性向量包括用戶情緒變化,所述時間相關詞向量包括用戶意圖;
根據所述時間相關詞向量,生成當前對話文本;
根據所述時間相關用戶屬性向量,生成目標用戶對應的音庫及合成參數,根據所述當前對話文本,輸出合成語音。
2.根據權利要求1所述的方法,其特征在于,在所述獲取目標用戶的用戶畫像之前,所述方法還包括:
構建訓練模型,所述訓練模型包括訓練語音庫和模塊單元,所述模塊單元至少包括用戶情緒獲取模塊、匹配模塊、語音識別模塊、語義理解模塊、話術生成模塊和多音庫語音合成模塊;
其中,構建所述訓練語音庫的方法包括:
按照用戶固有屬性對所有樣本用戶進行分類;
從每一音庫中隨機選取若干條語音構成測試集;
每個所述樣本用戶確定最優音庫及合成參數,所述合成參數包括語速、音高和音量,獲取所述最優音庫及合成參數作為該樣本用戶的用戶標注;
采集樣本用戶的多條語音以及當前情緒狀態,將所述樣本用戶的用戶和用戶固有屬性組成所述樣本用戶的用戶屬性;
構建包含多條訓練數據的訓練語音庫,每條訓練數據包括每個樣本用戶的所述語音、用戶屬性以及用戶標注。
3.根據權利要求2所述的方法,其特征在于,構建所述用戶情緒獲取模塊的方法包括:
構建包括一層輸入層、三個殘差模塊和一層輸出層的用戶情緒獲取模型,其中每個所述殘差模塊由三層卷積網絡構成,選取所述訓練語音庫中樣本用戶的語音,使用聲碼器提取所述語音的聲學參數作為模型輸入,將樣本用戶每條語音對應的用戶屬性中的用戶情緒數值化為用戶情緒向量作為模型輸出,使用優化器迭代訓練至收斂。
4.根據權利要求3所述的方法,其特征在于,構建所述匹配模塊的方法包括:數值化所述樣本用戶的用戶屬性為用戶屬性向量,以所述用戶屬性向量作為輸入,以樣本用戶選擇的最優音庫及合成參數作為輸出,使用優化器迭代訓練至收斂。
5.根據權利要求1所述的方法,其特征在于,所述存儲當前的所述用戶屬性向量和當前的所述詞向量,并配置時間標簽,包括:
以隊列形式構建存儲區,將當前的用戶屬性向量和當前的詞向量均配置時間標簽,存儲入所述隊列。
6.根據權利要求1所述的方法,其特征在于,所述截取一段時間內的用戶屬性向量和詞向量,獲取時間相關用戶屬性向量和時間相關詞向量,,包括:
以時間為軸,從當前時間T1開始,向前截取時間T2內的所有用戶屬性向量和詞向量;
依據標簽時間與當前時間T1的遠近加權后獲取時間相關用戶屬性向量和時間相關詞向量。
7.根據權利要求1所述的方法,其特征在于,所述方法還包括:
對同一目標用戶的語音對話,僅獲取一次用戶固有屬性向量,且不改變已選擇的音庫,所述合成參數根據用戶屬性中的用戶情緒的變化實時調整。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇寧云計算有限公司,未經蘇寧云計算有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010592284.3/1.html,轉載請聲明來源鉆瓜專利網。





