[發(fā)明專利]音頻識別方法和裝置、錄音終端及服務(wù)器、存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202010852414.2 | 申請日: | 2020-08-21 |
| 公開(公告)號: | CN111986657B | 公開(公告)日: | 2023-08-25 |
| 發(fā)明(設(shè)計(jì))人: | 沈忱;梁志婷;李健;王玉好 | 申請(專利權(quán))人: | 上海明略人工智能(集團(tuán))有限公司 |
| 主分類號: | G10L15/05 | 分類號: | G10L15/05;G10L25/48;G10L25/78;G10L25/84 |
| 代理公司: | 北京康信知識產(chǎn)權(quán)代理有限責(zé)任公司 11240 | 代理人: | 周婷婷 |
| 地址: | 200232 上海市徐*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 音頻 識別 方法 裝置 錄音 終端 服務(wù)器 存儲 介質(zhì) | ||
1.一種音頻識別方法,所述方法應(yīng)用于錄音終端,其特征在于,所述方法包括:
獲取原始音頻數(shù)據(jù);
基于語音活動檢測VAD按照至少兩種語音強(qiáng)度生成至少兩個(gè)參考音頻文件;
對所述至少兩個(gè)參考音頻文件分別進(jìn)行識別標(biāo)記,得到每個(gè)參考音頻文件中的語音標(biāo)記數(shù)據(jù);其中,所述語音標(biāo)記數(shù)據(jù)用于指示所述參考音頻文件中的語音片段;
將所述至少兩個(gè)參考音頻文件和各自對應(yīng)的所述語音標(biāo)記數(shù)據(jù)發(fā)送至服務(wù)器,以使所述服務(wù)器確定出每個(gè)所述參考音頻文件中的未標(biāo)記語音數(shù)據(jù),基于自動語音識別ASR獲取所述未標(biāo)記語音數(shù)據(jù)中的轉(zhuǎn)義結(jié)果,將所述轉(zhuǎn)義結(jié)果中文字?jǐn)?shù)最少的參考音頻文件作為目標(biāo)音頻文件,根據(jù)所述目標(biāo)音頻文件對應(yīng)的語音標(biāo)記數(shù)據(jù),確定出所述目標(biāo)音頻文件對應(yīng)的目標(biāo)未標(biāo)記語音數(shù)據(jù),將所述目標(biāo)未標(biāo)記語音數(shù)據(jù)中噪音的分貝值小于等于目標(biāo)閾值的音頻片段確定為噪音片段,將所述分貝值大于所述目標(biāo)閾值的音頻片段確定為所述語音片段,其中,所述轉(zhuǎn)義結(jié)果用于指示語音轉(zhuǎn)化為文字的結(jié)果。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對所述至少兩個(gè)參考音頻文件分別進(jìn)行識別標(biāo)記,得到每個(gè)參考音頻文件中的語音標(biāo)記數(shù)據(jù)包括:
對所述至少兩個(gè)參考音頻文件依次執(zhí)行以下標(biāo)記處理:
識別當(dāng)前參考音頻文件中包含的語音片段;
將所述語音片段的發(fā)音起始點(diǎn)標(biāo)記為第一時(shí)間標(biāo)簽,并將所述語音片段的發(fā)音結(jié)束點(diǎn)標(biāo)記為第二時(shí)間標(biāo)簽;
利用所述第一時(shí)間標(biāo)簽和所述第二時(shí)間標(biāo)簽生成所述當(dāng)前參考音頻文件對應(yīng)的所述語音標(biāo)記數(shù)據(jù)。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述方法還包括:
在所述原始音頻數(shù)據(jù)中包括多個(gè)語音輸入設(shè)備分別采集到的多段音頻數(shù)據(jù)的情況下,基于所述VAD按照至少兩種語音強(qiáng)度分別生成每段所述音頻數(shù)據(jù)對應(yīng)的至少兩個(gè)參考音頻文件。
4.一種音頻識別方法,所述方法應(yīng)用于服務(wù)器,其特征在于,所述方法包括:
接收錄音終端發(fā)送的至少兩個(gè)參考音頻文件以及各自對應(yīng)的語音標(biāo)記數(shù)據(jù);其中,所述至少兩個(gè)參考音頻文件是基于語音活動檢測VAD按照至少兩種語音強(qiáng)度生成的,所述語音標(biāo)記數(shù)據(jù)用于指示所述參考音頻文件中的語音片段;
確定出每個(gè)所述參考音頻文件中的未標(biāo)記語音數(shù)據(jù);
基于自動語音識別ASR獲取所述未標(biāo)記語音數(shù)據(jù)中的轉(zhuǎn)義結(jié)果,其中,所述轉(zhuǎn)義結(jié)果用于指示語音轉(zhuǎn)化為文字的結(jié)果;
將所述轉(zhuǎn)義結(jié)果中文字?jǐn)?shù)最少的參考音頻文件作為目標(biāo)音頻文件;根據(jù)所述目標(biāo)音頻文件對應(yīng)的語音標(biāo)記數(shù)據(jù),確定出所述目標(biāo)音頻文件對應(yīng)的目標(biāo)未標(biāo)記語音數(shù)據(jù);
將所述目標(biāo)未標(biāo)記語音數(shù)據(jù)中噪音的分貝值小于等于目標(biāo)閾值的音頻片段確定為噪音片段,將所述分貝值大于所述目標(biāo)閾值的音頻片段確定為所述語音片段。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述確定出每個(gè)所述參考音頻文件中的未標(biāo)記語音數(shù)據(jù)包括:
從所述參考音頻文件對應(yīng)的語音標(biāo)記數(shù)據(jù)中確定出所述參考音頻文件中包含的語音片段的第一時(shí)間標(biāo)簽和第二時(shí)間標(biāo)簽;其中,所述第一時(shí)間標(biāo)簽用于指示所述語音片段的發(fā)音起始點(diǎn),所述第二時(shí)間標(biāo)簽用于指示所述語音片段的發(fā)音結(jié)束點(diǎn);
根據(jù)所述第一時(shí)間標(biāo)簽和所述第二時(shí)間標(biāo)簽,確定出所述參考音頻文件對應(yīng)的未標(biāo)記語音數(shù)據(jù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海明略人工智能(集團(tuán))有限公司,未經(jīng)上海明略人工智能(集團(tuán))有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010852414.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





