[發(fā)明專利]一種訓練語音識別模型、識別語音的方法及裝置在審
| 申請?zhí)枺?/td> | 201910708335.1 | 申請日: | 2019-08-01 |
| 公開(公告)號: | CN110767215A | 公開(公告)日: | 2020-02-07 |
| 發(fā)明(設計)人: | 趙帥江;趙茜;羅訥 | 申請(專利權(quán))人: | 北京嘀嘀無限科技發(fā)展有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/20;G10L15/26;G10L21/0208 |
| 代理公司: | 11646 北京超成律師事務所 | 代理人: | 王文紅 |
| 地址: | 100193 北京*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語音識別 訓練語音 樣本語音 基礎語音 語音 語音識別結(jié)果 準確度 沖擊響應 擴展處理 信息對應 噪聲語音 車內(nèi) 申請 | ||
本申請?zhí)峁┝艘环N訓練語音識別模型、識別語音的方法及裝置,訓練語音識別模型的方法包括:獲取多條基礎語音信息;基于多種環(huán)境下的噪聲語音信息和/或不同類型車輛對應的車內(nèi)沖擊響應信息對所述基礎語音信息進行擴展處理,得到樣本語音信息;基于所述樣本語音信息和所述樣本語音信息對應的實際語音識別結(jié)果,訓練語音識別模型;所述語音識別模型用于對待識別語音進行語音識別。該申請實施例能夠使得語音識別模型具有更強的泛化能力,提升語音識別模型的精度,進而提升對語音識別的準確度。
技術(shù)領(lǐng)域
本申請涉及機器學習技術(shù)領(lǐng)域,具體而言,涉及一種訓練語音識別模型、識別語音的方法及裝置。
背景技術(shù)
近年來,隨著語音產(chǎn)品的不斷推廣,語音輸入作為一種重要的人機交互手段,被越來越多的人們所接受。例如在網(wǎng)約車領(lǐng)域,在很多情況下需要通過車載設備捕捉車輛內(nèi)服務提供方或者服務請求方所發(fā)出的語音,并基于語音識別模型對捕捉的語音進行識別。
但由于汽車內(nèi)空間距離小,車內(nèi)噪音復雜,例如除了人聲,還會有發(fā)動機轟鳴聲、車輛行駛過程中與地面的摩擦聲、車載設備運行時出現(xiàn)的雜音等,而鑒于不同車型的車輛,車內(nèi)構(gòu)造不同、車內(nèi)空間大小不同、車載設備的安裝位置不同、車載設備的配置不同等,都會使得車內(nèi)噪音存在較大的差異。因此在對語音識別模型訓練的時候,如果不針對不同車型、不同外界條件進行詳細化的訓練樣本篩選,會造成得到的語音識別模型泛化能力較差,進而導致對車內(nèi)語音的識別不準確。但在實際中,很難針對不同車型、不同外界條件獲取較為全面的訓練樣本,進而造成語音識別模型精度難以提升的問題。
發(fā)明內(nèi)容
有鑒于此,本申請的目的在于提供一種訓練語音識別模型、識別語音的方法及裝置,能夠能夠使得語音識別模型具有更強的泛化能力,提升語音識別模型的精度,進而提升對語音識別的準確度。
第一方面,本申請實施例提供了一種訓練語音識別模型的方法,包括:
獲取多條基礎語音信息;
基于多種環(huán)境下的噪聲語音信息和/或不同類型車輛對應的車內(nèi)沖擊響應信息對所述基礎語音信息進行擴展處理,得到樣本語音信息;
基于所述樣本語音信息和所述樣本語音信息對應的實際語音識別結(jié)果,訓練語音識別模型;所述語音識別模型用于對待識別語音進行語音識別。
一種可能的實施方式中,獲取所述基礎語音信息,包括:
獲取原始語音信息;
從所述原始語音信息中截取包含人聲的第一目標語音信息;
基于所述第一目標語音信息,生成所述基礎語音信息。
一種可能的實施方式中,所述基于所述第一目標語音信息,生成所述基礎語音信息,包括:
對所述第一目標語音信息進行如下一種或者多種處理,得到所述基礎語音信息:
噪聲過濾處理、去除靜音處理、方言分類處理、無效語音過濾處理。
一種可能的實施方式中,獲取所述噪聲語音信息,包括:
在多種環(huán)境下,基于車載語音系統(tǒng),獲取原始車載語音信息;
從所述原始車載語音信息中截取不包含人聲以及靜音的第二目標語音信息;
基于所述第二目標語音信息,得到所述噪聲語音信息。
一種可能的實施方式中,所述基于所述第二目標語音信息,得到所述噪聲語音信息,包括:
剔除所述第二目標語音信息中信噪比高于預設信噪比閾值的信息,得到所述噪聲語音信息。
一種可能的實施方式中,獲取所述車內(nèi)沖擊響應信息,包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京嘀嘀無限科技發(fā)展有限公司,未經(jīng)北京嘀嘀無限科技發(fā)展有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910708335.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





