[發明專利]面向康養的對話實現方法及系統在審
| 申請號: | 202110946613.4 | 申請日: | 2021-08-18 |
| 公開(公告)號: | CN113488057A | 公開(公告)日: | 2021-10-08 |
| 發明(設計)人: | 王本強;王建華;尹青山 | 申請(專利權)人: | 山東新一代信息產業技術研究院有限公司 |
| 主分類號: | G10L15/26 | 分類號: | G10L15/26;G10L13/02 |
| 代理公司: | 濟南信達專利事務所有限公司 37100 | 代理人: | 孫園園 |
| 地址: | 250100 山東省濟南市高新*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 對話 實現 方法 系統 | ||
1.一種面向康養的對話實現方法,其特征在于,該方法具體如下:
S1、用采集設備錄制雙方談話聲音;
S2、對錄制的聲音轉成文字并進行校對;
S3、把整理好的語料輸入對話模型進行訓練,輸出個人化對話模型;
S4、利用已有的聲音語料制作具有個人腔調特征的語音合成模型。
2.根據權利要求1所述的面向康養的對話實現方法,其特征在于,個人化對話模型使用預訓練的transformer模型,采用Encoder編碼和Decorder解碼結構;具體如下:
Encoder編碼時,將說話人的個性化與對話歷史編碼在一起,并設計個人屬性嵌入來模擬更豐富的對話上下文;
Decorder解碼時,加入目標個性化信息,同時為了平衡權重,設計一種注意力路由結構,通過使用動態的權重選擇器,對從目標個性化和對話上下文抽取的特征進行合并。
3.根據權利要求1所述的面向康養的對話實現方法,其特征在于,語音合成模型包括,
聲紋編碼器,用于從一段參考音頻中提取固定維度的聲紋特征;
基于Tracotron2的語音合成器,用于將提取出的聲紋特征與文本特征按照時間步進行拼接,生成頻譜特征;
基于WaveNet的發聲器,用于將頻譜特征轉換為時序波形。
4.根據權利要求1-3中任一所述的面向康養的對話實現方法,其特征在于,所述聲紋編碼器采用3層LSTM架構,提取的聲紋特征為256維;
參考音頻采用公開的中文語音語料庫通過預處理訓練而成。
5.一種面向康養的對話系統,其特征在于,該系統包括,
對話模型生成單元,用于采集對話錄音,將錄音轉換為文字并進行整理校對后,進行模型訓練,生成對話模型;
個性化語音合成單元,用于從參考音頻中提取聲紋特征,將聲紋特征與文本特征一起作為輸入進行拼接,將拼接后的頻譜特征轉換為時序波形,完成個性化語音合成。
6.根據權利要求5所述的面向康養的對話系統,其特征在于,所述對話模型生成單元包括,
對話錄音采集模塊,用于采用拾音設備,在無噪音環境中錄制多輪對話;
語音轉文字模塊,用于利用靜音檢測處理從對話錄音采集模塊得到的音頻數據,找到語音開始及結束位置,再借助語音轉文字工具,實現語音到文字的轉換;
整理校對模塊,用于校對語音轉文字過程中是否出現錯誤;
模型訓練模塊,用于個性化對話模型訓練。
7.根據權利要求6所述的面向康養的對話系統,其特征在于,所述模型訓練模塊使用預訓練的transformer模型,采用Encoder編碼和Decorder解碼結構;具體如下:
Encoder編碼時,將說話人的個性化與對話歷史編碼在一起,并設計個人屬性嵌入來模擬更豐富的對話上下文;
Decorder解碼時,加入目標個性化信息,同時為了平衡權重,設計一種注意力路由結構,通過使用動態的權重選擇器,對從目標個性化和對話上下文抽取的特征進行合并。
8.根據權利要求5所述的面向康養的對話系統,其特征在于,所述個性化語音合成單元包括,
聲紋編碼器,用于從一段參考音頻中提取固定維度的聲紋特征;其中,聲紋編碼器采用3層LSTM架構,提取的聲紋特征為256維;參考音頻采用公開的中文語音語料庫通過預處理訓練而成;
基于Tracotron2的語音合成器,用于將提取出的聲紋特征與文本特征按照時間步進行拼接,生成頻譜特征;
基于WaveNet的發聲器,用于將頻譜特征轉換為時序波形。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東新一代信息產業技術研究院有限公司,未經山東新一代信息產業技術研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110946613.4/1.html,轉載請聲明來源鉆瓜專利網。





