[發(fā)明專利]語音識別方法和裝置在審
| 申請?zhí)枺?/td> | 201410022569.8 | 申請日: | 2014-01-17 |
| 公開(公告)號: | CN104795066A | 公開(公告)日: | 2015-07-22 |
| 發(fā)明(設(shè)計)人: | 王曉利;曾勇波;張永生 | 申請(專利權(quán))人: | 株式會社NTT都科摩 |
| 主分類號: | G10L15/26 | 分類號: | G10L15/26;G10L15/20 |
| 代理公司: | 北京德琦知識產(chǎn)權(quán)代理有限公司 11018 | 代理人: | 郭曼;王琦 |
| 地址: | 日本東京都千代*** | 國省代碼: | 日本;JP |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語音 識別 方法 裝置 | ||
1.一種語音識別方法,其特征在于,包括:
記錄客戶端設(shè)備所在位置附近的背景音,并根據(jù)記錄的背景音生成噪音模型;
根據(jù)生成的噪音模型對來自所述客戶端設(shè)備的語音文件進(jìn)行降噪處理;以及
對降噪后的語音文件進(jìn)行語音識別得到識別后的文本。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述記錄客戶端設(shè)備所在位置附近的背景音包括:服務(wù)所述客戶端設(shè)備的邊緣節(jié)點記錄自身周圍的背景音。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述語音文件包含時間戳;
所述根據(jù)記錄的背景音生成噪音模型包括:所述邊緣節(jié)點根據(jù)所述語音文件對應(yīng)的時間戳查找所述時間戳所指示時間對應(yīng)的背景音,根據(jù)所述背景音生成噪音模型。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)記錄的背景音生成噪音模型包括:邊緣節(jié)點根據(jù)接收到所述語音文件的時間查找與所述時間對應(yīng)的背景音,并根據(jù)該背景音生成噪音模型。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)記錄的背景音生成噪音模型包括:邊緣節(jié)點在收到客戶端上傳的語音信號后開始記錄背景音,并根據(jù)記錄的背景音生成噪音模型。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)記錄的背景音生成噪音模型包括:
語音識別引擎向控制服務(wù)器發(fā)送背景音記錄上傳請求;以及
在收到控制服務(wù)器上傳的背景音后,語音識別引擎根據(jù)控制服務(wù)器上傳的背景音生成噪音模型。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述根據(jù)生成的噪音模型對來自所述客戶端設(shè)備的語音文件進(jìn)行降噪處理包括:所述語音識別引擎根據(jù)生成的噪音模型對從邊緣節(jié)點接收的語音文件進(jìn)行降噪處理,并對降噪處理后的語音文件進(jìn)行語音輸入結(jié)束檢測;
所述對降噪后的語音文件進(jìn)行語音識別得到識別后的文本包括:所述語音識別引擎對語音輸入結(jié)束檢測處理后的語音文件進(jìn)行語音識別得到識別后的文本,并將識別后的文本上傳至應(yīng)用服務(wù)器。
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)生成的噪音模型對來自所述客戶端設(shè)備的語音文件進(jìn)行降噪處理包括:所述邊緣節(jié)點根據(jù)生成的噪音模型對語音文件進(jìn)行降噪處理,并對降噪處理后的語音文件進(jìn)行語音輸入結(jié)束檢測;
所述對降噪后的語音文件進(jìn)行語音識別得到識別后的文本包括:邊緣節(jié)點對語音輸入結(jié)束檢測處理后的語音文件進(jìn)行語音識別得到識別后的文本,并將識別后的文本上傳至應(yīng)用服務(wù)器。
9.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)生成的噪音模型對來自所述客戶端設(shè)備的語音文件進(jìn)行降噪處理包括:所述邊緣節(jié)點根據(jù)生成的噪音模型對語音文件進(jìn)行降噪處理,對降噪處理后的語音文件進(jìn)行語音輸入結(jié)束檢測,并將語音輸入結(jié)束檢測處理后的語音文件上傳至語音識別引擎;
所述對降噪后的語音文件進(jìn)行語音識別得到識別后的文本包括:語音識別引擎對語音輸入結(jié)束檢測處理后的語音文件進(jìn)行語音識別得到識別后的文本,并將識別后的文本上傳至應(yīng)用服務(wù)器。
10.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)生成的噪音模型對來自所述客戶端設(shè)備的語音文件進(jìn)行降噪處理包括:所述邊緣節(jié)點根據(jù)生成的噪音模型對語音文件進(jìn)行降噪處理,并將降噪處理后的語音文件上傳至語音識別引擎;
所述對降噪后的語音文件進(jìn)行語音識別得到識別后的文本包括:語音識別引擎對降噪處理后的語音文件進(jìn)行語音輸入結(jié)束檢測,對語音輸入結(jié)束檢測處理后的語音文件進(jìn)行語音識別得到識別后的文本,并將識別后的文本上傳至應(yīng)用服務(wù)器。
11.根據(jù)權(quán)利要求1所述的方法,其特征在于,在根據(jù)記錄的背景音生成噪音模型之前,進(jìn)一步包括:對記錄的背景音進(jìn)行傳播損耗估計,并根據(jù)傳播損耗估計結(jié)果對自身記錄的背景音進(jìn)行補(bǔ)償。
12.一種邊緣節(jié)點,其特征在于,包括:
背景音記錄模塊(401),用于記錄自身所在位置附近的背景音。
13.根據(jù)權(quán)利要求12所述的邊緣節(jié)點,其特征在于,進(jìn)一步包括:
請求接收模塊(1201),用于接收來自控制服務(wù)器的背景音記錄上傳請求;以及
背景音上傳模塊(1202),用于將自身記錄的背景音上傳至控制服務(wù)器。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于株式會社NTT都科摩,未經(jīng)株式會社NTT都科摩許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410022569.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





