[發(fā)明專利]一種變聲系統(tǒng)、方法及人機交互系統(tǒng)及方法有效
| 申請?zhí)枺?/td> | 201210309311.7 | 申請日: | 2012-08-28 |
| 公開(公告)號: | CN103632672A | 公開(公告)日: | 2014-03-12 |
| 發(fā)明(設(shè)計)人: | 饒豐;陳波;肖斌;熊鵬飛;劉海龍;謝達東;唐宗堯 | 申請(專利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G10L19/02 | 分類號: | G10L19/02;G10L21/043;G06F3/01 |
| 代理公司: | 上海波拓知識產(chǎn)權(quán)代理有限公司 31264 | 代理人: | 楊波 |
| 地址: | 518044 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 變聲 系統(tǒng) 方法 人機交互 | ||
1.一種變聲系統(tǒng),其特征在于,包括:音頻輸入模塊,用于接收第一音頻信息;基頻變聲模塊,用于對接收的第一音頻信息進行變速變調(diào)處理和/或變速不變調(diào)處理以獲取第二音頻信息;音頻輸出模塊,用于輸出第二音頻信息。
2.根據(jù)權(quán)利要求1所述的變聲系統(tǒng),其特征在于,所述基頻變聲模塊對輸入音頻進行變速變調(diào)的處理方式為:采用傅立葉頻域變換,對音頻聲音在頻譜上進行拉伸。
3.根據(jù)權(quán)利要求1或2所述的變聲系統(tǒng),其特征在于,所述基頻變聲模塊對輸入音頻進行變速不變調(diào)處理方式為:在保證音頻原始特征不變的前提下,調(diào)整音頻信號的時間長度,所述音頻原始特征包括:音頻的頻率、振幅和相位。
4.根據(jù)權(quán)利要求1或2所述的變聲系統(tǒng),其特征在于,所述變聲系統(tǒng)還包括聲音轉(zhuǎn)換模塊,所述聲音轉(zhuǎn)換模塊用于建立說話人聲音和目標轉(zhuǎn)換人聲音的模型來實現(xiàn)聲音的轉(zhuǎn)換。
5.一種變聲方法,包括:
接收輸入的第一音頻信息;
對接收的第一音頻信息進行變速變調(diào)處理和/或變速不變調(diào)處理以獲取第二音頻信息;
輸出第二音頻信息。
6.根據(jù)權(quán)利要求5所述的變聲方法,其特征在于,對輸入音頻進行變速變調(diào)的處理方式為:采用傅立葉頻域變換,對音頻聲音在頻譜上進行拉伸;對輸入音頻進行變速不變調(diào)處理方式為:在保證音頻原始特征不變的前提下,調(diào)整音頻信號的時間長度,所述音頻原始特征包括:音頻的頻率、振幅和相位。
7.根據(jù)權(quán)利要求5所述的變聲方法,其特征在于,所述變聲方法還包括:建立說話人聲音和目標轉(zhuǎn)換人聲音的模型實現(xiàn)聲音的轉(zhuǎn)換。
8.一種人機交互系統(tǒng),其特征在于,包括變聲系統(tǒng)、人臉檢測系統(tǒng)和虛擬形象反饋系統(tǒng),所述變聲系統(tǒng)用于對輸入的第一音頻信息進行變調(diào)處理和/或變速不變調(diào)處理,輸出第二音頻信息;所述人臉檢測系統(tǒng)用于定位人臉特征點,并根據(jù)人臉特征點定位提取人臉動作信息;所述虛擬形象反饋系統(tǒng)用于根據(jù)所述輸出的第二音頻信息和/或所述提取的人臉動作信息進行人與虛擬形象之間的交互。
9.根據(jù)權(quán)利要求8所述的人機交互系統(tǒng),其特征在于,所述變聲系統(tǒng)還包括基頻變聲模塊和聲音轉(zhuǎn)換模塊,所述基頻變聲模塊用于將音頻進行變調(diào)不變速處理,所述聲音轉(zhuǎn)換模塊用于建立說話人聲音和目標轉(zhuǎn)換人聲音模型實現(xiàn)聲音轉(zhuǎn)換。
10.根據(jù)權(quán)利要求8或9所述的人機交互系統(tǒng),其特征在于,所述人臉檢測系統(tǒng)包括人臉檢測模塊、特征點擬合模塊、特征點定位模塊和動作提取模塊,所述人臉檢測模塊用于結(jié)合人臉檢測和人眼匹配對人臉位置進行初步定位;所述特征點擬合模塊用于根據(jù)初步定位信息結(jié)合表觀模型的至少一特征進行人臉特征點擬合;所述特征點定位模塊用于根據(jù)特征點擬合結(jié)果完成人臉特征點定位,并根據(jù)人臉特征點獲取人眼圖像,通過人眼檢測單元以上一幀圖像中的人眼圖像作為模板在人眼感興趣區(qū)域內(nèi)匹配下一幀圖像中雙眼的位置;所述動作提取模塊用于根據(jù)人臉特征點定位提取人臉的動作信息。
11.根據(jù)權(quán)利要求10所述的人機交互系統(tǒng),其特征在于,所述人臉檢測模塊還包括人眼檢測單元和人臉檢測單元,所述人眼檢測單元用于判斷上一幀圖像是否檢測出人眼,如果是,在人眼感興趣區(qū)域內(nèi)進行搜索,匹配人眼的位置信息;如果否,則通過人臉檢測單元進行人臉檢測;所述人臉檢測單元用于進行人臉檢測,并判斷是否檢測出人臉,如果是,獲得人臉的初始位置信息和初始人臉大小信息;如果否,則重新輸入視頻。
12.根據(jù)權(quán)利要求10所述的人機交互系統(tǒng),其特征在于,所述特征點擬合模塊還包括人眼擬合單元、人臉擬合單元和擬合判斷單元,
所述人眼擬合單元用于根據(jù)人臉的初始位置信息進行人臉特征點擬合,并通過擬合判斷單元判斷人臉特征點是否擬合成功;
所述人臉擬合單元用于根據(jù)人臉的初始位置和大小信息結(jié)合表觀模型灰度值、人臉的初始位置x,y軸方向的梯度值、邊緣和角點特征進行人臉特征點擬合,并通過擬合判斷單元判斷人臉特征點是否擬合成功;
所述擬合判斷單元用于判斷人臉特征點是否擬合成功,如果是,通過特征點定位模塊定位人臉特征點,如果否,則重新輸入視頻。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210309311.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





