[發明專利]面向康養的對話實現方法及系統在審
| 申請號: | 202110946613.4 | 申請日: | 2021-08-18 |
| 公開(公告)號: | CN113488057A | 公開(公告)日: | 2021-10-08 |
| 發明(設計)人: | 王本強;王建華;尹青山 | 申請(專利權)人: | 山東新一代信息產業技術研究院有限公司 |
| 主分類號: | G10L15/26 | 分類號: | G10L15/26;G10L13/02 |
| 代理公司: | 濟南信達專利事務所有限公司 37100 | 代理人: | 孫園園 |
| 地址: | 250100 山東省濟南市高新*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 對話 實現 方法 系統 | ||
本發明公開了面向康養的對話實現方法及系統,屬于語音交互領域,解決的技術問題為如何通過語音交互技術盡可能的模擬出獨有的個人的說話方式及語氣神態,提高喪偶老年人的生活質量以及減輕子女失去至親所承受的痛苦,技術方案為:該方法具體如下:S1、用采集設備錄制雙方談話聲音;S2、對錄制的聲音轉成文字并進行校對;S3、把整理好的語料輸入對話模型進行訓練,輸出個人化對話模型;S4、利用已有的聲音語料制作具有個人腔調特征的語音合成模型。該系統包括對話模型生成單元及個性化語音合成單元;對話模型生成單元包括對話錄音采集模塊、語音轉文字模塊、整理校對模塊及模型訓練模塊;個性化語音合成單元包括聲紋編碼器、語音合成器及發聲器。
技術領域
本發明涉及語音交互技術領域,具體地說是一種面向康養的對話實現方法及系統。
背景技術
近年來,隨著智能終端的普及,通過聲音、視頻、文字的方式,可以隨時記錄下生活當中的細節,如果這些數據從一個人出生開始收集,數據量是非常大的。
當前老年人口比例上升較快,人口老齡化程度的日益加深,如何提高喪偶老年人的生活質量以及減輕子女失去至親所承受的痛苦,是擺在康養行業的一個亟需解決的問題。
而隨著人工智能技術的發展,使得語音識別、語音合成、自然語言處理、對話交互技術也越來越成熟。故如何通過語音交互技術盡可能的模擬出獨有的個人的說話方式及語氣神態,提高喪偶老年人的生活質量以及減輕子女失去至親所承受的痛苦是目前亟待解決的技術問題。
發明內容
本發明的技術任務是提供一種面向康養的對話實現方法及系統,來解決如何通過語音交互技術盡可能的模擬出獨有的個人的說話方式及語氣神態,提高喪偶老年人的生活質量以及減輕子女失去至親所承受的痛苦的問題。
本發明的技術任務是按以下方式實現的,一種面向康養的對話實現方法,該方法具體如下:
S1、用采集設備錄制雙方談話聲音;
S2、對錄制的聲音轉成文字并進行校對;
S3、把整理好的語料輸入對話模型進行訓練,輸出個人化對話模型;
S4、利用已有的聲音語料制作具有個人腔調特征的語音合成模型。
作為優選,個人化對話模型使用預訓練的transformer模型,采用Encoder編碼和Decorder解碼結構;具體如下:
Encoder編碼時,將說話人的個性化與對話歷史編碼在一起,并設計個人屬性嵌入來模擬更豐富的對話上下文;
Decorder解碼時,加入目標個性化信息,同時為了平衡權重,設計一種注意力路由結構,通過使用動態的權重選擇器,對從目標個性化和對話上下文抽取的特征進行合并。
作為優選,語音合成模型包括,
聲紋編碼器,用于從一段參考音頻中提取固定維度的聲紋特征;
基于Tracotron2的語音合成器,用于將提取出的聲紋特征與文本特征按照時間步進行拼接,生成頻譜特征;
基于WaveNet的發聲器,用于將頻譜特征轉換為時序波形。
更優地,所述聲紋編碼器采用3層LSTM架構,提取的聲紋特征為256維;
參考音頻采用公開的中文語音語料庫通過預處理訓練而成。
一種面向康養的對話系統,該系統包括,
對話模型生成單元,用于采集對話錄音,將錄音轉換為文字并進行整理校對后,進行模型訓練,生成對話模型;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東新一代信息產業技術研究院有限公司,未經山東新一代信息產業技術研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110946613.4/2.html,轉載請聲明來源鉆瓜專利網。





