[發(fā)明專利]手勢到漢藏雙語語音轉(zhuǎn)換方法及裝置在審
| 申請?zhí)枺?/td> | 201410812309.0 | 申請日: | 2014-12-23 |
| 公開(公告)號: | CN104538025A | 公開(公告)日: | 2015-04-22 |
| 發(fā)明(設(shè)計(jì))人: | 楊鴻武;安曉春 | 申請(專利權(quán))人: | 西北師范大學(xué) |
| 主分類號: | G10L13/02 | 分類號: | G10L13/02;G10L17/16;G10L17/22;G06K9/62 |
| 代理公司: | 北京科億知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11350 | 代理人: | 湯東鳳 |
| 地址: | 730070 甘肅省蘭州*** | 國省代碼: | 甘肅;62 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 手勢 到漢藏 雙語 語音 轉(zhuǎn)換 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及人機(jī)交互技術(shù)領(lǐng)域,尤其涉及手勢到漢藏雙語語音轉(zhuǎn)換方法及裝置。
背景技術(shù)
近年來,基于視覺的手勢識別技術(shù)和多語種語音合成技術(shù)成為了人機(jī)交互領(lǐng)域的研究重點(diǎn)和人工智能發(fā)展的熱點(diǎn)。將這兩種技術(shù)相結(jié)合就能夠在同一個系統(tǒng)中實(shí)現(xiàn)手勢到多語種語音的轉(zhuǎn)換,這對于我國存在著數(shù)量眾多的言語障礙者具有重要的應(yīng)用價值。聾啞人作為社會的弱勢群體,在生活、學(xué)習(xí)、娛樂方面由于受到溝通語言的限制,可使用的資源非常少,這就使得該系統(tǒng)的研究有了重要的意義,例如在主要說普通話、藏語和方言的聾啞人中,如果能有一個轉(zhuǎn)換系統(tǒng)實(shí)現(xiàn)手勢到跨語言的多語種語音合成的轉(zhuǎn)換,將對促進(jìn)健全人與聾啞人的正常交流具有重要的作用和廣闊的應(yīng)用前景。
在國內(nèi)外有運(yùn)用嵌入式便攜手語識別手套的設(shè)計(jì)和一種手語語音互譯系統(tǒng)及手語語音互譯方法來實(shí)現(xiàn)手勢到語音的翻譯系統(tǒng)。嵌入式便攜手語識別手套的設(shè)計(jì)的基本原理是利用裝載在手套上的14組三軸加速度傳感器一共42通道加速度傳感量,運(yùn)用串口以及藍(lán)牙方式傳輸?shù)角度胧较到y(tǒng)上,通過對這42組變量的實(shí)時采集及時域分析,獲取有效參數(shù),通過對有效參數(shù)的識別,實(shí)現(xiàn)手勢向語義的轉(zhuǎn)換,最后通過語義轉(zhuǎn)化為語音,實(shí)時播放,實(shí)現(xiàn)手勢到語音的實(shí)時轉(zhuǎn)換。優(yōu)點(diǎn)是該系統(tǒng)采用便攜式設(shè)備,保證系統(tǒng)可以為用戶隨時隨地的提供服務(wù)。缺點(diǎn)是操作者要穿戴復(fù)雜的數(shù)據(jù)手套和位置跟蹤器,給操作者帶來很大不便,而且,輸入設(shè)備比較昂貴,需要花費(fèi)的成本高,難以將以上的系統(tǒng)在實(shí)際生活中得到推廣和應(yīng)用。一種手語語音互譯系統(tǒng)及手語語音互譯方法的基本思想是對采集手勢的視頻數(shù)據(jù)進(jìn)行平滑預(yù)處理和自適應(yīng)閾值的二值化預(yù)處理,然后將經(jīng)圖像預(yù)處理后的視頻數(shù)據(jù)進(jìn)行圖像特征提取后輸出56維特征向量構(gòu)建手語模型,輸出識別結(jié)果,最后識別結(jié)果經(jīng)中文發(fā)聲模塊轉(zhuǎn)化為中文語音;聲音信號采集裝置采集的聲音信號輸入語音識別編程接口轉(zhuǎn)換為文字輸出,通過三維建模軟件建立三維模型和三維動畫,最后輸出手語動畫。這種方法能夠?qū)崿F(xiàn)手語語音的互譯,使用方便,采用的設(shè)備經(jīng)濟(jì)便宜,直接由中文發(fā)聲模塊就可轉(zhuǎn)化為中文語音。但并沒有考慮到對方言、民族語言、以及語音資源不易獲取的語言的短缺以及強(qiáng)光和弱光環(huán)境下的手勢識別情況,在實(shí)際應(yīng)用中往往伴隨光線的變化問題,旋轉(zhuǎn)及復(fù)雜背景下的識別問題,這些使得該系統(tǒng)只能在特定的場景下進(jìn)行。
由于基于深度圖像技術(shù)的手勢識別方法可避免物體自身的顏色、紋理特征以及背景環(huán)境光線強(qiáng)弱的影響,受到了越來越多的關(guān)注;此外,基于HMM的統(tǒng)計(jì)參數(shù)語音合成方法可通過說話人自適應(yīng)變換合成不同說話人的語音,成為了跨語言的多語種語音合成中的研究熱點(diǎn)。然而,現(xiàn)有的研究大都只是單純地針對手勢識別或是具有大語料庫并且語音合成技術(shù)相對成熟的語言展開研究,并沒有考慮到將這兩種技術(shù)相結(jié)合在同一系統(tǒng)中實(shí)現(xiàn)手勢到語音的轉(zhuǎn)換,以及在方言、民族語言、以及語音資源不易獲取的語言的匱乏情況,缺少對手勢到漢藏雙語語音轉(zhuǎn)換的研究。目前國內(nèi)外的研究中,并沒有實(shí)現(xiàn)手勢到普通話/少數(shù)民族語言或者普通話/方言的多語種的轉(zhuǎn)換系統(tǒng)。
因此,本領(lǐng)域的技術(shù)人員致力于開發(fā)一種新型的面向語言障礙者的手勢到漢藏雙語語音轉(zhuǎn)換的實(shí)現(xiàn)方法和裝置。
發(fā)明內(nèi)容
有鑒于現(xiàn)有技術(shù)的上述缺陷,本發(fā)明要解決背景技術(shù)中提出的缺少對手勢到多語種語音轉(zhuǎn)換的研究,例如藏語,不能實(shí)現(xiàn)手勢到普通話/藏語的轉(zhuǎn)換,提供一種面向語言障礙者的手勢到漢藏雙語語音轉(zhuǎn)換的實(shí)現(xiàn)方法和裝置。
為解決上述技術(shù)問題,本發(fā)明提供了一種手勢到漢藏雙語語音轉(zhuǎn)換方法,包括步驟:
A、獲取深度圖像,并基于深度圖像進(jìn)行手勢分割;基于深度圖像的手勢分割主要取決于手和攝像頭之間的距離,在通過Kinect傳感器獲得深度圖像后,圖像可劃分為手像素區(qū)域和背景像素區(qū)域,進(jìn)行二值化處理后,就能將手勢形狀分割出來用于進(jìn)行特征提取和匹配;
B、利用改進(jìn)的SURF算法對分割出的手勢圖像進(jìn)行快速魯棒特征的匹配,得出手勢的匹配結(jié)果;
C、根據(jù)啞語的手勢含義,對各個靜態(tài)手勢,設(shè)計(jì)了一個手勢的語義詞典,然后供語音合成系統(tǒng)根據(jù)識別出的手勢合成出相應(yīng)的語音;
D、利用漢藏多說話人的語音數(shù)據(jù),基于HMM模型,通過說話人自適應(yīng)訓(xùn)練,訓(xùn)練得到混合語言平均音模型;
E、用待合成目標(biāo)語言藏語或漢語語音少量說話人的語料,通過說話人自適應(yīng)變換,得到說話人自適應(yīng)模型,并對自適應(yīng)模型進(jìn)行修正和更新;
F、利用基于HMM的漢藏雙語語音合成系統(tǒng)合成藏語或漢語語音。
進(jìn)一步,所述步驟A中所述基于深度圖像的手勢分割包括如下步驟:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西北師范大學(xué),未經(jīng)西北師范大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410812309.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:雙并HDMI2.0數(shù)據(jù)線
- 下一篇:折疊式LED警示燈牌
- 同類專利
- 專利分類





