[發(fā)明專利]一種離線語音識(shí)別方法、裝置和設(shè)備在審
| 申請(qǐng)?zhí)枺?/td> | 202010129483.0 | 申請(qǐng)日: | 2020-02-28 |
| 公開(公告)號(hào): | CN111292753A | 公開(公告)日: | 2020-06-16 |
| 發(fā)明(設(shè)計(jì))人: | 陳昊亮;許敏強(qiáng) | 申請(qǐng)(專利權(quán))人: | 廣州國(guó)音智能科技有限公司 |
| 主分類號(hào): | G10L15/26 | 分類號(hào): | G10L15/26;G10L15/28;G10L15/04 |
| 代理公司: | 深圳市深佳知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44285 | 代理人: | 王兆林 |
| 地址: | 510000 廣東省廣州市黃埔區(qū)科學(xué)城掬泉*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 離線 語音 識(shí)別 方法 裝置 設(shè)備 | ||
1.一種離線語音識(shí)別方法,其特征在于,包括:
響應(yīng)于離線語音識(shí)別請(qǐng)求,將接收到的語音數(shù)據(jù)進(jìn)行預(yù)置幀長(zhǎng)的語音分幀處理,得到若干幀待處理語音數(shù)據(jù);
將所述若干幀語音數(shù)據(jù)按幀與預(yù)置本地語音數(shù)據(jù)庫進(jìn)行聲紋比對(duì),輸出各幀語音數(shù)據(jù)對(duì)應(yīng)的在所述預(yù)置本地語音數(shù)據(jù)庫中的最接近的匹配語音數(shù)據(jù);
將所述匹配語音數(shù)據(jù)轉(zhuǎn)換為文本數(shù)據(jù),將所述文本數(shù)據(jù)按語音分幀順序依次顯示。
2.根據(jù)權(quán)利要求1所述的離線語音識(shí)別方法,其特征在于,所述預(yù)置幀長(zhǎng)為標(biāo)準(zhǔn)的兩字詞組發(fā)音時(shí)長(zhǎng)。
3.根據(jù)權(quán)利要求2所述的離線語音識(shí)別方法,其特征在于,所述將所述若干幀語音數(shù)據(jù)按幀與預(yù)置本地語音數(shù)據(jù)庫進(jìn)行聲紋比對(duì),輸出各幀語音數(shù)據(jù)對(duì)應(yīng)的在所述預(yù)置本地語音數(shù)據(jù)庫中的最接近的匹配語音數(shù)據(jù),之前還包括:
構(gòu)建所述預(yù)置本地語音數(shù)據(jù)庫;
將所述預(yù)置本地語音數(shù)據(jù)庫的詞組按預(yù)置規(guī)則進(jìn)行分類;
提取各類詞組的典型聲紋特征。
4.根據(jù)權(quán)利要求3所述的離線語音識(shí)別方法,其特征在于,所述將所述若干幀語音數(shù)據(jù)按幀與預(yù)置本地語音數(shù)據(jù)庫進(jìn)行聲紋比對(duì),輸出各幀語音數(shù)據(jù)對(duì)應(yīng)的在所述預(yù)置本地語音數(shù)據(jù)庫中的最接近的匹配語音數(shù)據(jù),包括:
提取所述若干幀語音數(shù)據(jù)的各幀的聲紋特征;
計(jì)算所述各幀的聲紋特征與所述預(yù)置本地語音數(shù)據(jù)庫中的各典型聲紋特征的余弦相似度,將余弦相似度最大的典型聲紋特征對(duì)應(yīng)的匹配語音數(shù)據(jù)進(jìn)行輸出。
5.一種離線語音識(shí)別裝置,其特征在于,包括:
語音分幀單元,用于響應(yīng)于離線語音識(shí)別請(qǐng)求,將接收到的語音數(shù)據(jù)進(jìn)行預(yù)置幀長(zhǎng)的語音分幀處理,得到若干幀待處理語音數(shù)據(jù);
聲紋比對(duì)單元,用于將所述若干幀語音數(shù)據(jù)按幀與預(yù)置本地語音數(shù)據(jù)庫進(jìn)行聲紋比對(duì),輸出各幀語音數(shù)據(jù)對(duì)應(yīng)的在所述預(yù)置本地語音數(shù)據(jù)庫中的最接近的匹配語音數(shù)據(jù);
顯示單元,用于將所述匹配語音數(shù)據(jù)轉(zhuǎn)換為文本數(shù)據(jù),將所述文本數(shù)據(jù)按語音分幀順序依次顯示。
6.根據(jù)權(quán)利要求5所述的離線語音識(shí)別裝置,其特征在于,所述預(yù)置幀長(zhǎng)為標(biāo)準(zhǔn)的兩字詞組發(fā)音時(shí)長(zhǎng)。
7.根據(jù)權(quán)利要求6所述的離線語音識(shí)別裝置,其特征在于,還包括預(yù)處理單元,所述預(yù)處理單元用于:
構(gòu)建所述預(yù)置本地語音數(shù)據(jù)庫;
將所述預(yù)置本地語音數(shù)據(jù)庫的詞組按預(yù)置規(guī)則進(jìn)行分類;
提取各類詞組的典型聲紋特征。
8.根據(jù)權(quán)利要求7所述的離線語音識(shí)別裝置,其特征在于,所述聲紋比對(duì)單元具體用于:
提取所述若干幀語音數(shù)據(jù)的各幀的聲紋特征;
計(jì)算所述各幀的聲紋特征與所述預(yù)置本地語音數(shù)據(jù)庫中的各典型聲紋特征的余弦相似度,將余弦相似度最大的典型聲紋特征對(duì)應(yīng)的匹配語音數(shù)據(jù)進(jìn)行輸出。
9.一種離線語音識(shí)別方法設(shè)備,其特征在于,所述設(shè)備包括處理器以及存儲(chǔ)器:
所述存儲(chǔ)器用于存儲(chǔ)程序代碼,并將所述程序代碼傳輸給所述處理器;
所述處理器用于根據(jù)所述程序代碼中的指令執(zhí)行權(quán)利要求1-4任一項(xiàng)所述的離線語音識(shí)別方法。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)用于存儲(chǔ)程序代碼,所述程序代碼用于執(zhí)行權(quán)利要求1-4任一項(xiàng)所述的離線語音識(shí)別方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣州國(guó)音智能科技有限公司,未經(jīng)廣州國(guó)音智能科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010129483.0/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 識(shí)別媒體、識(shí)別媒體的識(shí)別方法、識(shí)別對(duì)象物品以及識(shí)別裝置
- 一種探針卡識(shí)別裝置和方法
- 識(shí)別裝置、識(shí)別方法以及記錄介質(zhì)
- 識(shí)別裝置、識(shí)別系統(tǒng),識(shí)別方法以及存儲(chǔ)介質(zhì)
- 識(shí)別程序、識(shí)別方法以及識(shí)別裝置
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 識(shí)別裝置、識(shí)別方法以及識(shí)別程序
- 識(shí)別裝置、識(shí)別方法及識(shí)別程序
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





