[發(fā)明專利]可辨認(rèn)任何語(yǔ)言句子的方法無(wú)效
| 申請(qǐng)?zhí)枺?/td> | 201010563452.2 | 申請(qǐng)日: | 2010-11-29 |
| 公開(kāi)(公告)號(hào): | CN102479507A | 公開(kāi)(公告)日: | 2012-05-30 |
| 發(fā)明(設(shè)計(jì))人: | 黎自?shī)^;李臺(tái)珍;黎世聰;黎世宏;廖麗娟 | 申請(qǐng)(專利權(quán))人: | 黎自?shī)^;李臺(tái)珍;黎世聰;黎世宏;廖麗娟 |
| 主分類號(hào): | G10L13/08 | 分類號(hào): | G10L13/08;G10L15/08;G10L15/28 |
| 代理公司: | 北京科龍寰宇知識(shí)產(chǎn)權(quán)代理有限責(zé)任公司 11139 | 代理人: | 孫皓晨 |
| 地址: | 中國(guó)臺(tái)*** | 國(guó)省代碼: | 中國(guó)臺(tái)灣;71 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 辨認(rèn) 任何 語(yǔ)言 句子 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明提供一種可辨認(rèn)任何語(yǔ)言句子的方法,用12彈性框(窗),等長(zhǎng)、無(wú)濾波器、不重疊,將一到多個(gè)單字組成長(zhǎng)短不一的一個(gè)句子的音波轉(zhuǎn)換成E×P=12×12的線性預(yù)估編碼倒頻譜(LPCC)的矩陣。將全部被辨認(rèn)的已知句子以相似度先分到一千個(gè)不同資料庫(kù)中,辨認(rèn)一個(gè)未知句子時(shí),將它先轉(zhuǎn)換成E×P線性預(yù)估編碼倒頻譜矩陣,再用未知句子E×P矩陣用距離從一千個(gè)資料庫(kù)中,找最接近的資料庫(kù)。再?gòu)淖罱咏馁Y料庫(kù)內(nèi)的已知句子,用距離找要辨認(rèn)未知的句子。
當(dāng)使用者發(fā)音后,用Visual?Basic,不到一秒鐘很快能辨認(rèn)所要的句子。方法簡(jiǎn)單,不需樣本,任何人都可即時(shí)使用,發(fā)音不標(biāo)準(zhǔn)或發(fā)錯(cuò)音者也可。以前要計(jì)算及比對(duì)一個(gè)句子特征值,本發(fā)明只要計(jì)算及比對(duì)一個(gè)句子E×P矩陣值,速度快、準(zhǔn)確率高。用普通話、閩南語(yǔ)、英語(yǔ)、日語(yǔ)、德語(yǔ)發(fā)音均測(cè)試過(guò),可辨認(rèn)大量語(yǔ)音,本發(fā)明不用樣本,用簡(jiǎn)單數(shù)學(xué)計(jì)算及辨認(rèn),又準(zhǔn)又快。
背景技術(shù)
一般辨認(rèn)一個(gè)未知句子是先將該未知句子切割成多個(gè)單音或單字,切割是一項(xiàng)極高難度技術(shù),尤其是英語(yǔ),一個(gè)英語(yǔ)單字有多個(gè)音節(jié),很難切割準(zhǔn)確,一音節(jié)之差會(huì)使未知句子辨認(rèn)錯(cuò)。所以講話時(shí),要小心、要慢、要清楚、單字間隔要長(zhǎng)。再將未知句子全部單字和資料庫(kù)的已知單字比對(duì),一個(gè)單字錯(cuò)誤會(huì)使未知句子辨認(rèn)錯(cuò)。再將單字資料庫(kù)找到的已知單字依照未知句子單字順序,連成一個(gè)已知句子,再?gòu)木渥淤Y料庫(kù)找最可能已知句子為未知句子。一般辨認(rèn)一個(gè)未知句子方法很難準(zhǔn)確,費(fèi)時(shí),不能正常和電腦自由交談。一般辨認(rèn)方法需費(fèi)時(shí)做樣本,須用統(tǒng)計(jì)計(jì)算及辨認(rèn),當(dāng)然不準(zhǔn),因統(tǒng)計(jì)只能估計(jì)。
一個(gè)句子的發(fā)音是用音波表示。音波是一種隨時(shí)間作非線性變化的系統(tǒng),一個(gè)句子音波內(nèi)含有一種動(dòng)態(tài)特性,也隨時(shí)間作非線性連續(xù)變化。相同句子發(fā)音時(shí),有一連串相同動(dòng)態(tài)特性,隨時(shí)間作非線性伸展及收縮,但相同動(dòng)態(tài)特性依時(shí)間排列秩序一樣,但時(shí)間不同。相同句子發(fā)音時(shí),將相同的動(dòng)態(tài)特性排列在同一時(shí)間位置上非常困難。
一個(gè)電腦化語(yǔ)言辨認(rèn)系統(tǒng),首先要抽取聲波有關(guān)語(yǔ)言資訊,也即動(dòng)態(tài)特性,過(guò)濾和語(yǔ)言無(wú)關(guān)的雜音,如人的音色、音調(diào),說(shuō)話時(shí)心理、生理及情緒和語(yǔ)音辨認(rèn)無(wú)關(guān)先刪去,然后再將相同句子的相同特征排列在相同的時(shí)間位置上。此一連串的特征用一等長(zhǎng)系列特征向量表示,稱為一個(gè)句子的特征模型。目前語(yǔ)音辨認(rèn)系統(tǒng)要產(chǎn)生大小一致的特征模型太復(fù)雜,且費(fèi)時(shí),因?yàn)橄嗤渥拥南嗤卣骱茈y排列在同一時(shí)間位置上,尤其是英語(yǔ),導(dǎo)致比對(duì)辨認(rèn)較困難。
一個(gè)連續(xù)聲波特征常用有下列幾種:能量(energy),零橫過(guò)點(diǎn)數(shù)(zerocrossings),極值數(shù)目(extreme?count),顛峰(formants),線性預(yù)估編碼倒頻譜(LPCC)及梅爾頻率倒頻譜(MFCC),其中以線性預(yù)估編碼倒頻譜(LPCC)及梅爾頻率倒頻譜(MFCC)是最有效,并普遍使用。線性預(yù)估編碼倒頻譜(LPCC)是代表一個(gè)連續(xù)音最可靠,穩(wěn)定又準(zhǔn)確的語(yǔ)言特征。它用線性回歸模式代表連續(xù)音音波,以最小平方估計(jì)法計(jì)算回歸系數(shù),其估計(jì)值再轉(zhuǎn)換成倒頻譜,就成為線性預(yù)估編碼倒頻譜(LPCC)。而梅爾頻率倒頻譜(MFCC)是將音波用傅氏轉(zhuǎn)換法轉(zhuǎn)換成頻率。再根據(jù)梅爾頻率比例去估計(jì)聽(tīng)覺(jué)系統(tǒng)。根據(jù)學(xué)者S.B.Davis?and?P.Mermelstein于1980年出版在IEEE?Transactions?on?Acoustics,Speech?Signal?Processing,Vol.28,No.4發(fā)表的論文Comparison?of?parametric?representations?for?monosyllabicword?recognition?in?continuously?spoken?sentences中用動(dòng)態(tài)時(shí)間扭曲法(DTW),梅爾頻率倒頻譜(MFCC)特征比線性預(yù)估編碼倒頻譜(LPCC)特征辨認(rèn)率要高。但經(jīng)過(guò)多次語(yǔ)音辨認(rèn)實(shí)驗(yàn)(包含本人前發(fā)明),用貝氏分類法,線性預(yù)估編碼倒頻譜(LPCC)特征辨認(rèn)率比梅爾頻率倒頻譜(MFCC)特征要高,且省時(shí)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于黎自?shī)^;李臺(tái)珍;黎世聰;黎世宏;廖麗娟,未經(jīng)黎自?shī)^;李臺(tái)珍;黎世聰;黎世宏;廖麗娟許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010563452.2/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G10L 語(yǔ)音分析或合成;語(yǔ)音識(shí)別;音頻分析或處理
G10L13-00 語(yǔ)音合成;文本-語(yǔ)音合成系統(tǒng)
G10L13-02 .產(chǎn)生合成語(yǔ)音的方法;語(yǔ)音合成設(shè)備
G10L13-06 .語(yǔ)音合成設(shè)備中使用的基本語(yǔ)音單位;級(jí)聯(lián)規(guī)則
G10L13-08 .文本分析或文本以外的語(yǔ)音合成參數(shù)的產(chǎn)生,例如語(yǔ)義圖翻譯為音素、韻律產(chǎn)生、重音或聲調(diào)測(cè)定
G10L13-04 ..語(yǔ)音合成系統(tǒng)的零部件,例如合成設(shè)備結(jié)構(gòu)或存儲(chǔ)器管理
- 自動(dòng)檢測(cè)文件中搭配錯(cuò)誤的系統(tǒng)和方法
- 網(wǎng)絡(luò)連接裝置及網(wǎng)絡(luò)連接裝置的語(yǔ)言環(huán)境設(shè)定方法
- 一種口語(yǔ)評(píng)測(cè)方法及裝置
- 一種語(yǔ)言設(shè)置方法及移動(dòng)終端
- 一種語(yǔ)言文本加載方法和裝置
- 一種語(yǔ)言交流人工智能系統(tǒng)及其語(yǔ)言處理方法
- 語(yǔ)言序列標(biāo)注方法、裝置存儲(chǔ)介質(zhì)及計(jì)算機(jī)設(shè)備
- 一種基于語(yǔ)言包實(shí)現(xiàn)繼電保護(hù)裝置多語(yǔ)言版本方法及裝置
- 一種應(yīng)用軟件的多語(yǔ)言核對(duì)方法及系統(tǒng)
- 多語(yǔ)言字幕顯示方法、裝置、終端設(shè)備及存儲(chǔ)介質(zhì)





