[發明專利]歌聲生成方法、裝置、設備及存儲介質有效
| 申請號: | 201910864720.5 | 申請日: | 2019-09-12 |
| 公開(公告)號: | CN110600034B | 公開(公告)日: | 2021-12-03 |
| 發明(設計)人: | 張超鋼;陳傳藝 | 申請(專利權)人: | 廣州酷狗計算機科技有限公司 |
| 主分類號: | G10L15/26 | 分類號: | G10L15/26;G10H1/00 |
| 代理公司: | 北京三高永信知識產權代理有限責任公司 11138 | 代理人: | 邢惠童 |
| 地址: | 510660 廣東省廣州*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 歌聲 生成 方法 裝置 設備 存儲 介質 | ||
本申請公開了一種歌聲生成方法、裝置、設備及存儲介質,屬于音頻處理技術領域。所述方法包括:當獲取到用戶語音時,對所述用戶語音進行識別;當識別出的文字與第一參考歌聲中的文字非完全相同時,獲取所述用戶語音的第一音頻特征和第二參考歌聲的第二音頻特征,所述第二參考歌聲為所述第一參考歌聲或對所述第一參考歌聲進行變調處理得到的參考歌聲;根據所述第一音頻特征和所述第二音頻特征,確定所述用戶語音中的文字;根據所述第一參考歌聲中的文字,對確定的所述用戶語音中的文字進行變速處理和變調處理,生成用戶歌聲。本申請可以解決文字識別錯誤或遺漏時導致文字無法對齊,因而無法生成用戶歌聲的問題。
技術領域
本申請涉及音頻處理技術領域,尤其涉及一種歌聲生成方法、裝置、設備及存儲介質。
背景技術
隨著音頻處理技術的發展,音頻處理技術逐漸應用于人們的日常生活中,例如,有些用戶唱歌五音不全,希望可以念出歌詞,然后生成自己的歌聲。
相關技術一般是對用戶說話的語音進行識別,然后將識別出的文字與參考歌聲的文字進行對齊、變速和變調,從而生成用戶歌聲。
在實際使用場景中,由于噪聲、混響等環境因素,很容易造成文字識別錯誤或遺漏,導致識別出的文字與參考歌聲中的文字非完全相同,這樣使得文字無法對齊,因而無法生成用戶歌聲。
發明內容
本申請實施例提供了一種歌聲生成方法、裝置、設備及存儲介質,可以解決相關技術中文字識別錯誤或遺漏時無法生成用戶歌聲的問題。所述技術方案如下:
第一方面,提供一種歌聲生成方法,包括:
當獲取到用戶語音時,對所述用戶語音進行識別;
當識別出的文字與第一參考歌聲中的文字非完全相同時,獲取所述用戶語音的第一音頻特征和第二參考歌聲的第二音頻特征,所述第二參考歌聲為所述第一參考歌聲或對所述第一參考歌聲進行變調處理得到的參考歌聲;
根據所述第一音頻特征和所述第二音頻特征,確定所述用戶語音中的文字;
根據所述第一參考歌聲中的文字,對確定的所述用戶語音中的文字進行變速處理和變調處理,生成用戶歌聲。
在一種可能實現方式中,所述根據所述第一音頻特征和所述第二音頻特征,確定所述用戶語音中的文字,包括:
獲取所述第一音頻特征和所述第二音頻特征的幀對齊路徑,所述幀對齊路徑用于指示所述第一音頻特征中的每一幀對應于所述第二音頻特征中的幀;
根據所述幀對齊路徑和所述第二音頻特征的每一幀對應的文字,確定所述第一音頻特征的每一幀對應的文字,所述第一音頻特征和所述第二音頻特征中相對應幀對應的文字相同。
在一種可能實現方式中,所述根據所述第一參考歌聲中的文字,對確定的所述用戶語音中的文字進行變速處理和變調處理,生成用戶歌聲,包括:
根據所述第一參考歌聲中的文字的時長和音高,對所述第一音頻特征的每一幀對應的文字的時長和音高進行調整,生成所述用戶歌聲。
在一種可能實現方式中,所述根據所述第一參考歌聲中的文字的時長和音高,對所述第一音頻特征的每一幀對應的文字的時長和音高進行調整,生成所述用戶歌聲,包括:
將所述第一音頻特征的每一幀對應的文字的時長和音高分別調整至所述第一參考歌聲中對應文字的時長和音高,生成所述用戶歌聲。
在一種可能實現方式中,所述第二參考歌聲的第二音頻特征的獲取過程包括:
根據所述用戶語音的平均音高,從多個參考歌聲的音頻特征中,選取所述第二參考歌聲的第二音頻特征,所述第二參考歌聲的平均音高與所述用戶語音的平均音高之間的差值最小;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州酷狗計算機科技有限公司,未經廣州酷狗計算機科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910864720.5/2.html,轉載請聲明來源鉆瓜專利網。





