[發明專利]一種將語音轉換為旋律的方法和裝置無效
| 申請號: | 201110295667.5 | 申請日: | 2011-09-30 |
| 公開(公告)號: | CN103035235A | 公開(公告)日: | 2013-04-10 |
| 發明(設計)人: | 楊晨;蔡蓮紅;周衛 | 申請(專利權)人: | 西門子公司 |
| 主分類號: | G10L13/08 | 分類號: | G10L13/08;G10H7/00 |
| 代理公司: | 北京康信知識產權代理有限責任公司 11240 | 代理人: | 李慧 |
| 地址: | 德國*** | 國省代碼: | 德國;DE |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語音 轉換 旋律 方法 裝置 | ||
技術領域
本發明涉及語音處理技術,特別涉及一種將語音轉換為旋律的方法和裝置。
背景技術
旋律是構成音樂的最基本要素,能夠最有效地表現音樂以及人類情感。旋律是具有各種音調和時長的音符的組合,可以理解為由具有不同音調和時長的音符排列而成。通常,各個音符通過節拍排序,以向該音符序列提供音樂意義。
音樂家或者歌唱家對音樂具有專業的掌控力和表現力,能夠很好地配合旋律將自己的歌聲展現出來,而對于普通人來說,通常具有一定難度。常常希望通過輸入一段語音就能夠實時轉換為具有自身聲音特質的旋律,而現有技術中尚不能實現該技術。
發明內容
有鑒于此,本發明提供了一種將語音轉換為旋律的方法和裝置,能夠將用戶輸入的語音數據轉換為具有用戶聲音特質的旋律。
本發明的技術方案如下:
一種將語音轉換為旋律的方法,該方法包括:獲取語音數據和樂譜信息,所述語音數據由用戶輸入,所述樂譜信息包括:歌詞信息,音符信息以及兩者的對應關系;調整語音數據中各音節的時長,使各音節的時長與樂譜信息中對應的歌詞時長對齊,并按照樂譜信息中各音符的音調,調整語音數據的語音基頻點,使各語音基頻點與樂譜信息中對應音符的音調對齊;結合調整音調后的語音基頻點和調整時長后的各音節形成旋律數據。
調整語音數據中各音節的時長,使各音節的時長與樂譜信息中對應的歌詞時長對齊具體包括:提取輸入的語音數據中每一幀的能量和過零率信息;根據每一幀的能量和過零率信息將語音數據劃分為語音段和靜音段;按照所述樂譜信息中的歌詞信息將各語音段切分為音節;調整語音數據中各音節的時長使得其與樂譜信息中對應的歌詞時長對齊。
其中,根據每一幀的能量和過零率信息將語音數據劃分為語音段和靜音段包括:根據每一幀的能量和過零率信息,將每一幀標識為語音幀或靜音幀;將相鄰的語音幀構成語音段,將相鄰的靜音幀構成靜音段。
其中,按照所述樂譜信息中的歌詞信息將各語音段切分為音節包括:確定樂譜信息的歌詞中每個句子對應的語音段;確定每個句子所包含各個短語對應的語音段;以及對每個短語對應的語音段進行語音切分,得到切分后的音節。
其中,調整語音數據中各音節的時長使得其與樂譜信息中對應的歌詞時長對齊包括:在對一個包含聲母和韻母的音節進行時長調節時,如果需要對該音節的時長進行拉長,則保持聲母時長不變,只拉長韻母的時長;如果需要對該音節的時長進行縮短,則將聲母和韻母同時縮短。
或者調整語音數據中各音節的時長使得其與樂譜信息中對應的歌詞時長對齊包括:當一個音節的前后均為靜音段時,使該音節聲母的時長占整個音節時長的16.2%;當該音節的前面為靜音段,后面不是靜音段時,使該音節聲母時長占整個音節時長的27.6%;當該音節的前面不是靜音段,后面是靜音段時,使該音節聲母時長占整個音節時長的24.8%;以及當該音節的前后均不是靜音段時,使該音節聲母時長占整個音節時長的32.9%。
具體地,按照樂譜信息中各音符的音調,調整語音數據的語音基頻,使各語音基頻點與對應音符的音調對齊具體包括:提取輸入的語音數據的語音基頻信息,所述語音音頻信息包括:語音數據的基頻均值以及語音數據的各個語音基頻點;基于語音數據的基頻均值和樂譜信息中所有音符的基頻均值確定將所述語音數據轉換成的旋律的調號;以確定的調號為基準,調整語音數據的各語音基頻點的頻率與樂譜信息中各音符的音調對齊。
另外,基于語音數據的基頻均值和樂譜信息中所有音符的基頻均值確定旋律的調號包括:確定語音數據的基頻均值F0_aver和樂譜信息中所有音頻的基頻均值P_aver;如果F0_aver>P_aver,將語音數據的基頻均值降K-n個半音作為旋律的調號,其中,K為F0_aver比P_aver高出的半音數目,n為實驗值,可以取n為int(K/7),int表示取整;如果F0_aver<P_aver,將語音數據的基頻均值升K-n個半音作為旋律的調號,其中,K為F0_aver比P_aver低的半音數目,n為實驗值,可以取n為int(K/7),int表示取整。
更優地,在確定旋律的調號之后進一步包括:將語音基頻點進行分段,其中處于不同分段的兩個相鄰語音基頻點之間的頻率差值大于設定分段閾值;確定長度小于預設的野點長度閾值的分段為野點分段;對野點分段中語音基頻點的頻率進行sinc插值處理。
或者,在調整語音數據的語音基頻之后進一步包括:在經過步驟B調整音調后的語音數據中,將每個音符中包含的后m%的語音基頻點和與后一個音符包含的前m%的語音基頻點進行sinc插值處理;其中,m%為設定的實驗值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西門子公司,未經西門子公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110295667.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種電力載波高速多載波復用方法及系統
- 下一篇:一種具有增肥效果的新型褲子





