[發(fā)明專利]一種語(yǔ)音辨識(shí)定點(diǎn)化處理方法無(wú)效
| 申請(qǐng)?zhí)枺?/td> | 200710306524.3 | 申請(qǐng)日: | 2007-12-28 |
| 公開(kāi)(公告)號(hào): | CN101217034A | 公開(kāi)(公告)日: | 2008-07-09 |
| 發(fā)明(設(shè)計(jì))人: | 趙仁宏;陳淮琰 | 申請(qǐng)(專利權(quán))人: | 無(wú)敵科技(西安)有限公司 |
| 主分類(lèi)號(hào): | G10L15/00 | 分類(lèi)號(hào): | G10L15/00;G10L15/28 |
| 代理公司: | 西安智邦專利商標(biāo)代理有限公司 | 代理人: | 商宇科 |
| 地址: | 710075陜西省*** | 國(guó)省代碼: | 陜西;61 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 語(yǔ)音 辨識(shí) 點(diǎn)化 處理 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種語(yǔ)音辨識(shí)定點(diǎn)化處理方法,尤其是關(guān)于以整數(shù)算法來(lái)實(shí)現(xiàn)語(yǔ)音辨識(shí)定點(diǎn)化處理的方法。
背景技術(shù)
隨著科技的進(jìn)步,各式各項(xiàng)的電子產(chǎn)品推陳出新,然而對(duì)于多數(shù)不熟悉電子產(chǎn)品的使用者而言,使用接口仍是使用電子產(chǎn)品的最大障礙。不友善的使用界面不僅讓使用者感到挫折,甚至讓有些使用者對(duì)使用電子產(chǎn)品覺(jué)得反感與恐懼。因此,「口語(yǔ)對(duì)話」這種最方便、自然、不需要特別學(xué)習(xí)就能使用的溝通媒介,長(zhǎng)久以來(lái)就被高度地期待。隨著行動(dòng)通訊的發(fā)展,這樣的需求也愈來(lái)愈迫切。在可預(yù)見(jiàn)的未來(lái),手持的行動(dòng)裝置將不僅是人們溝通的工具,更將會(huì)是人們獲取信息的重要工具。而手持設(shè)備走向輕、薄、短、小的趨勢(shì),使得語(yǔ)音對(duì)話技術(shù)在下一代行動(dòng)通訊系統(tǒng)中變得不可或缺,在硬件技術(shù)的進(jìn)步,語(yǔ)音辨識(shí)已能應(yīng)用于手機(jī)、PDA、玩具等小型裝置上,但僅能做到簡(jiǎn)單的撥號(hào)或命令控制功能,還未能夠支持自然的口語(yǔ)對(duì)話功能。而此些小型裝置的體積越做越小功能卻越做越強(qiáng),幾乎各種多媒體應(yīng)用都被希望能放入這些產(chǎn)品中,使得此類(lèi)消費(fèi)產(chǎn)品更具市場(chǎng)吸引力;語(yǔ)音辨識(shí)便是其中一項(xiàng),在小型化的產(chǎn)品上提供最直接及方便的輸入方式,例如:聲控自動(dòng)撥號(hào)。然而在有限資源的硬件及軟件上,處理單元執(zhí)行速度慢,內(nèi)存小,許多在計(jì)算機(jī)平臺(tái)上開(kāi)發(fā)的技術(shù)及算法都必須做大幅修正才能放進(jìn)這類(lèi)平臺(tái)內(nèi),以提升辨識(shí)速度,減少內(nèi)存使用量以符合硬件規(guī)格,同時(shí)還需確保辨識(shí)效能不因此而變差。
發(fā)明內(nèi)容
本發(fā)明為解決背景技術(shù)中存在的上述技術(shù)問(wèn)題,而提供一種減少硬件資源的使用量的語(yǔ)音辨識(shí)定點(diǎn)化處理方法。
本發(fā)明的技術(shù)解決方案是:本發(fā)明為一種語(yǔ)音辨識(shí)定點(diǎn)化處理方法,其特殊之處在于:該方法包括以下步驟:
11)提供語(yǔ)音訊號(hào);
12)利用整數(shù)算法求取語(yǔ)音訊號(hào)的倒頻譜系數(shù);
13)建立語(yǔ)音訊號(hào)的長(zhǎng)整數(shù)型態(tài)的聲學(xué)模型;
14)利用倒頻譜系數(shù)與聲學(xué)模型進(jìn)行維特比算法,得到辨識(shí)比對(duì)值。
上述步驟12)中利用整數(shù)算法求取語(yǔ)音訊號(hào)的倒頻譜系數(shù)的具體步驟如下:
21)獲取語(yǔ)音訊號(hào)形成音框;
22)集中音框中的語(yǔ)音訊號(hào)的能量;
23)轉(zhuǎn)換音框中的語(yǔ)音訊號(hào),形成頻譜頻域中的頻譜訊號(hào);
24)取得頻譜訊號(hào)的平方后,輸入三角濾波器;
25)將經(jīng)過(guò)濾波的數(shù)值取自然數(shù)對(duì)數(shù),得到對(duì)數(shù)值,自然數(shù)對(duì)數(shù)的求取為利用其運(yùn)算特性,在乘上一常數(shù)后,所建對(duì)數(shù)表求取;
26)經(jīng)由離散余弦變換后,得到梅爾倒頻譜系數(shù)。
本發(fā)明的語(yǔ)音辨識(shí)定點(diǎn)化處理方法,利用整數(shù)算法求取語(yǔ)音訊號(hào)的倒頻譜系數(shù),并建立語(yǔ)音訊號(hào)的一長(zhǎng)整數(shù)型態(tài)的聲學(xué)模型,最后利用倒頻譜系數(shù)與聲學(xué)模型進(jìn)行維特比算法,得到辨識(shí)比對(duì)值。通過(guò)整數(shù)算法及長(zhǎng)整數(shù)型態(tài)的聲學(xué)模型,來(lái)實(shí)現(xiàn)語(yǔ)音辨識(shí)定點(diǎn)化處理,可減少硬件資源的使用量。
附圖說(shuō)明
圖1是本發(fā)明的方法流程圖;
圖2是本發(fā)明的求取梅爾倒頻譜系數(shù)流程圖;
圖3是本發(fā)明的求取梅爾倒頻譜系數(shù)的具體實(shí)施例流程圖。
具體實(shí)施方式
參見(jiàn)圖1,本發(fā)明的語(yǔ)音辨識(shí)定點(diǎn)化處理方法如下:
S11:提供語(yǔ)音訊號(hào);
S12:利用整數(shù)算法求取語(yǔ)音訊號(hào)的倒頻譜系數(shù);
S13:建立語(yǔ)音訊號(hào)的一長(zhǎng)整數(shù)型態(tài)的聲學(xué)模型;
S14:利用倒頻譜系數(shù)與聲學(xué)模型進(jìn)行維特比算法,得到辨識(shí)比對(duì)值。
上述的倒頻譜系數(shù)包括為一梅爾倒頻譜系數(shù)(Mel-Frequency?CepstrumCoefficients,MFCC),長(zhǎng)整數(shù)型態(tài)的聲學(xué)模型所存的數(shù)值可表示為Mean*32768*2048、Variable*32768*2048、(Transition?Probability)*32768及Gconst*32768,于求取辨識(shí)比對(duì)值時(shí),Mean與Variable與梅爾倒頻譜系數(shù)CM作運(yùn)算,其結(jié)果再與Gconst及Transition?Probability作運(yùn)算,經(jīng)由前述定點(diǎn)方式求得的CM值已scale?32768*2048,因此將Mean與Variable?scale32768*2048后與CM值運(yùn)算,再將運(yùn)算結(jié)果值向右移11bits,再與scale為32768之Gconst及Transition?Probability作運(yùn)算。
參見(jiàn)圖2,梅爾倒頻譜系數(shù)的求取步驟如下:
S21:獲取語(yǔ)音訊號(hào)形成復(fù)數(shù)個(gè)音框;
S22:集中音框中的語(yǔ)音訊號(hào)的能量;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于無(wú)敵科技(西安)有限公司,未經(jīng)無(wú)敵科技(西安)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710306524.3/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類(lèi)專利
- 專利分類(lèi)
- 用于語(yǔ)音處理的方法與系統(tǒng)
- 一種語(yǔ)音識(shí)別測(cè)試系統(tǒng)及方法
- 用于語(yǔ)音識(shí)別的方法和裝置
- 一種語(yǔ)音消毒柜的控制方法及語(yǔ)音消毒柜
- 一種語(yǔ)音處理方法及裝置
- 混合語(yǔ)音識(shí)別方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 語(yǔ)音情緒識(shí)別方法、系統(tǒng)、移動(dòng)終端及存儲(chǔ)介質(zhì)
- 一種具有語(yǔ)音識(shí)別功能的智能語(yǔ)音終端設(shè)備
- 語(yǔ)音增強(qiáng)方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 一種聲紋鑒定語(yǔ)音重組方法和系統(tǒng)
- 信息定點(diǎn)化處理裝置及其處理方法
- 定點(diǎn)化處理方法及其裝置
- 數(shù)據(jù)處理方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 數(shù)據(jù)處理方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種定點(diǎn)化方法及裝置、計(jì)算機(jī)設(shè)備
- 數(shù)據(jù)的定點(diǎn)化加速方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)定點(diǎn)化方法、裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)
- 設(shè)備站點(diǎn)化方法、用例站點(diǎn)化執(zhí)行方法及自動(dòng)化測(cè)試平臺(tái)
- 定點(diǎn)化參數(shù)優(yōu)化方法、系統(tǒng)、及終端、存儲(chǔ)介質(zhì)
- 連續(xù)回收(甲基)丙烯酸的方法





