[發明專利]語音識別方法和裝置在審
| 申請號: | 201410022569.8 | 申請日: | 2014-01-17 |
| 公開(公告)號: | CN104795066A | 公開(公告)日: | 2015-07-22 |
| 發明(設計)人: | 王曉利;曾勇波;張永生 | 申請(專利權)人: | 株式會社NTT都科摩 |
| 主分類號: | G10L15/26 | 分類號: | G10L15/26;G10L15/20 |
| 代理公司: | 北京德琦知識產權代理有限公司 11018 | 代理人: | 郭曼;王琦 |
| 地址: | 日本東京都千代*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 識別 方法 裝置 | ||
技術領域
本申請涉及語音識別技術領域,特別涉及一種語音識別方法和裝置。
背景技術
語音識別技術簡要來說就是讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令的技術。語音識別技術主要包括聲音特征提取技術、模式匹配準則及模型訓練技術等方面。
目前語音識別技術已經得到快速的發展以及廣泛的使用。但是,在環境噪聲較大的環境下,例如在體育場等嘈雜環境下,語音識別技術的應用卻受到了很大的限制。可以理解,用戶說話時的背景噪聲越大,語音識別的識別率就會越低。甚至受到背景噪聲的影響,很多時候無法完成語音結束檢測(Utterance?Ending?Detection),也即無法檢測出用戶什么時候停止說話的。
發明內容
為了解決上述問題,本發明的實施例提出了一種語音識別的方法及執行該方法的裝置,可以提高噪聲環境下語音識別的識別率。
本發明實施例所述的語音識別方法包括:記錄客戶端設備所在位置附近的背景音,并根據記錄的背景音生成噪音模型;根據生成的噪音模型對來自所述客戶端設備的語音文件進行降噪處理;以及對降噪后的語音文件進行語音識別得到識別后的文本。
上述記錄用戶所在位置附近的背景音包括:服務所述用戶的邊緣節點記錄自身周圍的背景音。
其中,上述語音文件包含時間戳;則根據記錄的背景音生成噪音模型包括:所述邊緣節點根據語音文件對應的時間戳查找所述時間戳所指示時間對應的背景音,根據所述背景音生成噪音模型。
上述根據記錄的背景音生成噪音模型包括:邊緣節點根據接收到語音文件的時間查找與所述時間對應的背景音,并根據查找到的背景音生成噪音模型。
或者,上述根據記錄的背景音生成噪音模型包括:邊緣節點在收到客戶端上傳的語音信號后開始記錄背景音,并根據記錄的背景音生成噪音模型。
又或者,上述根據記錄的背景音生成噪音模型包括:語音識別引擎向控制服務器發送背景音記錄上傳請求;以及在收到控制服務器上傳的背景音后,語音識別引擎根據控制服務器上傳的背景音生成噪音模型。
上述根據生成的噪音模型對來自客戶端設備的語音文件進行降噪處理包括:所述邊緣節點根據生成的噪音模型對語音文件進行降噪處理,并對降噪處理后的語音文件進行語音輸入結束檢測;對降噪后的語音文件進行語音識別得到識別后的文本包括:邊緣節點對語音輸入結束檢測處理后的語音文件進行語音識別得到識別后的文本,并將識別后的文本上傳至應用服務器。
又或者,根據生成的噪音模型對來自客戶端設備的語音文件進行降噪處理包括:所述邊緣節點根據生成的噪音模型對語音文件進行降噪處理,對降噪處理后的語音文件進行語音輸入結束檢測,并將語音輸入結束檢測處理后的語音文件上傳至語音識別引擎;對降噪后的語音文件進行語音識別得到識別后的文本包括:語音識別引擎對語音輸入結束檢測處理后的語音文件進行語音識別得到識別后的文本,并將識別后的文本上傳至應用服務器。
再或者,根據生成的噪音模型對來自客戶端設備的語音文件進行降噪處理包括:所述邊緣節點根據生成的噪音模型對語音文件進行降噪處理,并將降噪處理后的語音文件上傳至語音識別引擎;對降噪后的語音文件進行語音識別得到識別后的文本包括:語音識別引擎對降噪處理后的語音文件進行語音輸入結束檢測,對語音輸入結束檢測處理后的語音文件進行語音識別得到識別后的文本,并將識別后的文本上傳至應用服務器。
上述根據生成的噪音模型對來自客戶端設備的語音文件進行降噪處理包括:所述語音識別引擎根據生成的噪音模型對從邊緣節點接收的語音文件進行降噪處理,并對降噪處理后的語音文件進行語音輸入結束檢測;對降噪后的語音文件進行語音識別得到識別后的文本包括:所述語音識別引擎對語音輸入結束檢測處理后的語音文件進行語音識別得到識別后的文本,并將識別后的文本上傳至應用服務器。
上述方法在根據記錄的用戶所在位置附近的背景音生成噪音模型之前進一步包括:對記錄的背景音進行傳播損耗估計,并根據傳播損耗估計結果對自身記錄的背景音進行補償。
本發明實施例所述的邊緣節點包括:背景音記錄模塊401,用于記錄自身所在位置附近的背景音。
邊緣節點可以進一步包括:請求接收模塊1201,用于接收來自控制服務器的背景音記錄上傳請求;以及背景音上傳模塊1202,用于將自身記錄的背景音上傳至控制服務器。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于株式會社NTT都科摩,未經株式會社NTT都科摩許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410022569.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:靈敏放大器及存儲器
- 下一篇:用于調節屏幕亮度的方法、裝置及終端





