[發明專利]一種離線語音識別方法、裝置和設備在審
| 申請號: | 202010129483.0 | 申請日: | 2020-02-28 |
| 公開(公告)號: | CN111292753A | 公開(公告)日: | 2020-06-16 |
| 發明(設計)人: | 陳昊亮;許敏強 | 申請(專利權)人: | 廣州國音智能科技有限公司 |
| 主分類號: | G10L15/26 | 分類號: | G10L15/26;G10L15/28;G10L15/04 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙) 44285 | 代理人: | 王兆林 |
| 地址: | 510000 廣東省廣州市黃埔區科學城掬泉*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 離線 語音 識別 方法 裝置 設備 | ||
本申請公開了一種離線語音識別方法、裝置和設備,包括:響應于離線語音識別請求,將接收到的語音數據進行預置幀長的語音分幀處理,得到若干幀待處理語音數據;將若干幀語音數據按幀與預置本地語音數據庫進行聲紋比對,輸出各幀語音數據對應的在預置本地語音數據庫中的最接近的匹配語音數據;將匹配語音數據轉換為文本數據,將文本數據按語音分幀順序依次顯示。本申請中提供的離線語音識別方法,不需要依靠與本地終端在線連接的服務器來進行語音識別,能夠在離線情況下將說話人的語音轉換問文本進行顯示,彌補了在線語音識別方式的不足,解決現有的在線語音識別方式受限于網絡覆蓋率和終端的網絡穩定性,可靠性較差的技術問題。
技術領域
本申請涉及語音處理技術領域,尤其涉及一種離線語音識別方法、裝置和設備。
背景技術
隨著語音識別技術的推廣,將語音轉換成文本已經成為一種廣受人們歡迎的自動語音識別技術。現有的移動終端或本地終端上往往安裝有語音轉文本的軟件,,在現有的移動終端或本地終端上進行語音識別通常是在線識別,通過連接的服務器來進行在線語音識別,將說話人的語音數據轉換為文本進行顯示,但是在線進行語音轉文本的語音識別方式受限于網絡覆蓋率和終端的網絡穩定性,可靠性較差。因此,提供離線語音識別方式來彌補在線語音識別方式的不足,是本領域技術人員亟待解決的技術問題。
發明內容
本申請提供了一種離線語音識別方法、裝置和設備,用于彌補在線語音識別方式的不足,解決現有的在線語音識別方式受限于網絡覆蓋率和終端的網絡穩定性,可靠性較差的技術問題。
有鑒于此,本申請第一方面提供了一種離線語音識別方法,包括:
響應于離線語音識別請求,將接收到的語音數據進行預置幀長的語音分幀處理,得到若干幀待處理語音數據;
將所述若干幀語音數據按幀與預置本地語音數據庫進行聲紋比對,輸出各幀語音數據對應的在所述預置本地語音數據庫中的最接近的匹配語音數據;
將所述匹配語音數據轉換為文本數據,將所述文本數據按語音分幀順序依次顯示。
可選地,所述預置幀長為標準的兩字詞組發音時長。
可選地,所述將所述若干幀語音數據按幀與預置本地語音數據庫進行聲紋比對,輸出各幀語音數據對應的在所述預置本地語音數據庫中的最接近的匹配語音數據,之前還包括:
構建所述預置本地語音數據庫;
將所述預置本地語音數據庫的詞組按預置規則進行分類;
提取各類詞組的典型聲紋特征。
可選地,所述將所述若干幀語音數據按幀與預置本地語音數據庫進行聲紋比對,輸出各幀語音數據對應的在所述預置本地語音數據庫中的最接近的匹配語音數據,包括:
提取所述若干幀語音數據的各幀的聲紋特征;
計算所述各幀的聲紋特征與所述預置本地語音數據庫中的各典型聲紋特征的余弦相似度,將余弦相似度最大的典型聲紋特征對應的匹配語音數據進行輸出。
本申請第二方面提供了一種離線語音識別裝置,包括:
語音分幀單元,用于響應于離線語音識別請求,將接收到的語音數據進行預置幀長的語音分幀處理,得到若干幀待處理語音數據;
聲紋比對單元,用于將所述若干幀語音數據按幀與預置本地語音數據庫進行聲紋比對,輸出各幀語音數據對應的在所述預置本地語音數據庫中的最接近的匹配語音數據;
顯示單元,用于將所述匹配語音數據轉換為文本數據,將所述文本數據按語音分幀順序依次顯示。
可選地,所述預置幀長為標準的兩字詞組發音時長。
可選地,還包括預處理單元,所述預處理單元用于:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州國音智能科技有限公司,未經廣州國音智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010129483.0/2.html,轉載請聲明來源鉆瓜專利網。





