[發明專利]語音和聲音的識別方法發明在審
| 申請號: | 201610273827.9 | 申請日: | 2016-04-29 |
| 公開(公告)號: | CN107342074A | 公開(公告)日: | 2017-11-10 |
| 發明(設計)人: | 王榮 | 申請(專利權)人: | 王榮 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100000 北京市鼓*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 聲音 識別 方法 發明 | ||
技術領域
本發明屬于語音識別和聲音識別領域,具體涉及一種實現語音和聲音識別的方法。
背景技術
語音識別是人工智能的重要組成部分,有著廣泛的用途,但目前的語音識別在有噪音的環境中識別能力較差。《IEEE JOURNAL ON SELECTED AREAS IN COMMUNICATIONS,VOL.10,NO.5,JUNE 1992》雜志的《An Objective Measure for Predicting Subjective Quality of Speech Coders》一文(以下稱文獻1)介紹了一種比較兩個語音之間差異的方法,但如果用于語音識別,這種方法效果很不理想。另外,這種方法需要兩個語音是完全對準的,但現實中,語音會在任何時間開始和結束,幾乎不可能是事先對準的。因此,本發明提出解決方法,試圖解決這些問題。
發明內容
一種實現語音識別的方法,方法是把純語音A轉換為表示所述純語音A在巴克上的響度的二維數組F,把待識別的聲音G轉換為表示所述待識別的聲音G在巴克上的響度的二維數組H,其特征是:
在比較所述數組F和所述數組H時,忽略所述數組F中響度較小的元素以及所述數組H中與所述數組F中響度較小的元素對應的元素。
一種實現語音識別的方法,方法是把純語音A2轉換為表示所述純語音A2在巴克上的響度的二維數組F2,把待識別的聲音G2轉換為表示所述待識別的聲音G2在巴克上的響度的二維數組H2,其特征是:
在計算所述數組F2的元素F2[x][y]和所述數組H2中對應的元素H2[x][y]的距離時,令計算的結果最大不超過所述元素F2[x][y]的值。
優選的,設待識別的聲音G3是和純語音A3長度不同的聲音,為計算所述待識別的聲音G3是否包含所述純語音A3,其特征是:
逐幀從所述待識別的聲音G3中提取和所述純語音A3長度相同的一段聲音G4,再比較所述聲音G4和所述純語音A3。
優選的,把所述純語音A和所述純語音A2乘以一個比例因子,再和所述待識別的聲音G和所述待識別的聲音G2進行比較。
與現有技術相比,本發明的優勢在于:對有噪音的環境以及發音較短的字或詞有較好的識別效果。
具體實施方式
實施例1:
在語音,以及更寬泛而言的聲音中,功率在頻率上的分布并不是完全相等的,并且功率在頻率上的分布會隨著時間變化。正是這種頻率的分布,以及它們的變化,使人可以分辨出各種聲音。假設有一個200赫茲和一個2000赫茲,強度不變的正弦音同時出現,并且200赫茲正弦音的響度是2000赫茲的2倍,在這種情況下,人類可以輕易聽出聲音中有一個2000赫茲的聲音。但如果把文獻1的方法和公式直接用于聲音的識別,以及計算兩個聲音的距離,會認為這個聲音和2000赫茲相距甚遠,因而識別不出2000赫茲這個聲音。但是如果先給人類聽一下2000赫茲的正弦波純音,他會發現,這個聲音在200Hz以及其它頻率上的響度為零,因而會忽略200赫茲的聲音,只考慮2000赫茲的這個聲音,因而依然能聽出2000赫茲這個聲音。
另外,在有噪音的環境中,響度太小的聲音太容易受到干擾,因此在有噪音的環境中進行語音識別時,需要忽略純語音中響度太小的聲音。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于王榮,未經王榮許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610273827.9/2.html,轉載請聲明來源鉆瓜專利網。





