[發明專利]語音和聲音的識別方法發明在審

申請號：	201610273827.9	申請日：	2016-04-29
公開（公告）號：	CN107342074A	公開（公告）日：	2017-11-10
發明（設計）人：	王榮	申請（專利權）人：	王榮
主分類號：	G10L15/02	分類號：	G10L15/02
代理公司：	暫無信息	代理人：	暫無信息
地址：	100000 北京市鼓***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	語音聲音識別方法發明
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明屬于語音識別和聲音識別領域，具體涉及一種實現語音和聲音識別的方法。

背景技術

語音識別是人工智能的重要組成部分，有著廣泛的用途，但目前的語音識別在有噪音的環境中識別能力較差。《IEEE JOURNAL ON SELECTED AREAS IN COMMUNICATIONS，VOL.10，NO.5，JUNE 1992》雜志的《An Objective Measure for Predicting Subjective Quality of Speech Coders》一文(以下稱文獻1)介紹了一種比較兩個語音之間差異的方法，但如果用于語音識別，這種方法效果很不理想。另外，這種方法需要兩個語音是完全對準的，但現實中，語音會在任何時間開始和結束，幾乎不可能是事先對準的。因此，本發明提出解決方法，試圖解決這些問題。

發明內容

一種實現語音識別的方法，方法是把純語音A轉換為表示所述純語音A在巴克上的響度的二維數組F，把待識別的聲音G轉換為表示所述待識別的聲音G在巴克上的響度的二維數組H，其特征是：

在比較所述數組F和所述數組H時，忽略所述數組F中響度較小的元素以及所述數組H中與所述數組F中響度較小的元素對應的元素。

一種實現語音識別的方法，方法是把純語音A2轉換為表示所述純語音A2在巴克上的響度的二維數組F2，把待識別的聲音G2轉換為表示所述待識別的聲音G2在巴克上的響度的二維數組H2，其特征是：

在計算所述數組F2的元素F2[x][y]和所述數組H2中對應的元素H2[x][y]的距離時，令計算的結果最大不超過所述元素F2[x][y]的值。

優選的，設待識別的聲音G3是和純語音A3長度不同的聲音，為計算所述待識別的聲音G3是否包含所述純語音A3，其特征是：

逐幀從所述待識別的聲音G3中提取和所述純語音A3長度相同的一段聲音G4，再比較所述聲音G4和所述純語音A3。

優選的，把所述純語音A和所述純語音A2乘以一個比例因子，再和所述待識別的聲音G和所述待識別的聲音G2進行比較。

與現有技術相比，本發明的優勢在于：對有噪音的環境以及發音較短的字或詞有較好的識別效果。

具體實施方式

實施例1：

在語音，以及更寬泛而言的聲音中，功率在頻率上的分布并不是完全相等的，并且功率在頻率上的分布會隨著時間變化。正是這種頻率的分布，以及它們的變化，使人可以分辨出各種聲音。假設有一個200赫茲和一個2000赫茲，強度不變的正弦音同時出現，并且200赫茲正弦音的響度是2000赫茲的2倍，在這種情況下，人類可以輕易聽出聲音中有一個2000赫茲的聲音。但如果把文獻1的方法和公式直接用于聲音的識別，以及計算兩個聲音的距離，會認為這個聲音和2000赫茲相距甚遠，因而識別不出2000赫茲這個聲音。但是如果先給人類聽一下2000赫茲的正弦波純音，他會發現，這個聲音在200Hz以及其它頻率上的響度為零，因而會忽略200赫茲的聲音，只考慮2000赫茲的這個聲音，因而依然能聽出2000赫茲這個聲音。

另外，在有噪音的環境中，響度太小的聲音太容易受到干擾，因此在有噪音的環境中進行語音識別時，需要忽略純語音中響度太小的聲音。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于王榮，未經王榮許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201610273827.9/2.html，轉載請聲明來源鉆瓜專利網。