[發(fā)明專利]音頻識別方法和裝置、錄音終端及服務(wù)器、存儲介質(zhì)有效

申請?zhí)枺?/td>	202010852414.2	申請日：	2020-08-21
公開（公告）號：	CN111986657B	公開（公告）日：	2023-08-25
發(fā)明（設(shè)計(jì)）人：	沈忱;梁志婷;李健;王玉好	申請（專利權(quán)）人：	上海明略人工智能（集團(tuán)）有限公司
主分類號：	G10L15/05	分類號：	G10L15/05;G10L25/48;G10L25/78;G10L25/84
代理公司：	北京康信知識產(chǎn)權(quán)代理有限責(zé)任公司 11240	代理人：	周婷婷
地址：	200232 上海市徐***	國省代碼：	上海;31
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	音頻識別方法裝置錄音終端服務(wù)器存儲介質(zhì)
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種音頻識別方法，所述方法應(yīng)用于錄音終端，其特征在于，所述方法包括：

獲取原始音頻數(shù)據(jù)；

基于語音活動檢測VAD按照至少兩種語音強(qiáng)度生成至少兩個(gè)參考音頻文件；

對所述至少兩個(gè)參考音頻文件分別進(jìn)行識別標(biāo)記，得到每個(gè)參考音頻文件中的語音標(biāo)記數(shù)據(jù)；其中，所述語音標(biāo)記數(shù)據(jù)用于指示所述參考音頻文件中的語音片段；

將所述至少兩個(gè)參考音頻文件和各自對應(yīng)的所述語音標(biāo)記數(shù)據(jù)發(fā)送至服務(wù)器，以使所述服務(wù)器確定出每個(gè)所述參考音頻文件中的未標(biāo)記語音數(shù)據(jù)，基于自動語音識別ASR獲取所述未標(biāo)記語音數(shù)據(jù)中的轉(zhuǎn)義結(jié)果，將所述轉(zhuǎn)義結(jié)果中文字?jǐn)?shù)最少的參考音頻文件作為目標(biāo)音頻文件，根據(jù)所述目標(biāo)音頻文件對應(yīng)的語音標(biāo)記數(shù)據(jù)，確定出所述目標(biāo)音頻文件對應(yīng)的目標(biāo)未標(biāo)記語音數(shù)據(jù)，將所述目標(biāo)未標(biāo)記語音數(shù)據(jù)中噪音的分貝值小于等于目標(biāo)閾值的音頻片段確定為噪音片段，將所述分貝值大于所述目標(biāo)閾值的音頻片段確定為所述語音片段，其中，所述轉(zhuǎn)義結(jié)果用于指示語音轉(zhuǎn)化為文字的結(jié)果。

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述對所述至少兩個(gè)參考音頻文件分別進(jìn)行識別標(biāo)記，得到每個(gè)參考音頻文件中的語音標(biāo)記數(shù)據(jù)包括：

對所述至少兩個(gè)參考音頻文件依次執(zhí)行以下標(biāo)記處理：

識別當(dāng)前參考音頻文件中包含的語音片段；

將所述語音片段的發(fā)音起始點(diǎn)標(biāo)記為第一時(shí)間標(biāo)簽，并將所述語音片段的發(fā)音結(jié)束點(diǎn)標(biāo)記為第二時(shí)間標(biāo)簽；

利用所述第一時(shí)間標(biāo)簽和所述第二時(shí)間標(biāo)簽生成所述當(dāng)前參考音頻文件對應(yīng)的所述語音標(biāo)記數(shù)據(jù)。

3.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述方法還包括：

在所述原始音頻數(shù)據(jù)中包括多個(gè)語音輸入設(shè)備分別采集到的多段音頻數(shù)據(jù)的情況下，基于所述VAD按照至少兩種語音強(qiáng)度分別生成每段所述音頻數(shù)據(jù)對應(yīng)的至少兩個(gè)參考音頻文件。

4.一種音頻識別方法，所述方法應(yīng)用于服務(wù)器，其特征在于，所述方法包括：

接收錄音終端發(fā)送的至少兩個(gè)參考音頻文件以及各自對應(yīng)的語音標(biāo)記數(shù)據(jù)；其中，所述至少兩個(gè)參考音頻文件是基于語音活動檢測VAD按照至少兩種語音強(qiáng)度生成的，所述語音標(biāo)記數(shù)據(jù)用于指示所述參考音頻文件中的語音片段；

確定出每個(gè)所述參考音頻文件中的未標(biāo)記語音數(shù)據(jù)；

基于自動語音識別ASR獲取所述未標(biāo)記語音數(shù)據(jù)中的轉(zhuǎn)義結(jié)果，其中，所述轉(zhuǎn)義結(jié)果用于指示語音轉(zhuǎn)化為文字的結(jié)果；

將所述轉(zhuǎn)義結(jié)果中文字?jǐn)?shù)最少的參考音頻文件作為目標(biāo)音頻文件；根據(jù)所述目標(biāo)音頻文件對應(yīng)的語音標(biāo)記數(shù)據(jù)，確定出所述目標(biāo)音頻文件對應(yīng)的目標(biāo)未標(biāo)記語音數(shù)據(jù)；

將所述目標(biāo)未標(biāo)記語音數(shù)據(jù)中噪音的分貝值小于等于目標(biāo)閾值的音頻片段確定為噪音片段，將所述分貝值大于所述目標(biāo)閾值的音頻片段確定為所述語音片段。

5.根據(jù)權(quán)利要求4所述的方法，其特征在于，所述確定出每個(gè)所述參考音頻文件中的未標(biāo)記語音數(shù)據(jù)包括：

從所述參考音頻文件對應(yīng)的語音標(biāo)記數(shù)據(jù)中確定出所述參考音頻文件中包含的語音片段的第一時(shí)間標(biāo)簽和第二時(shí)間標(biāo)簽；其中，所述第一時(shí)間標(biāo)簽用于指示所述語音片段的發(fā)音起始點(diǎn)，所述第二時(shí)間標(biāo)簽用于指示所述語音片段的發(fā)音結(jié)束點(diǎn)；

根據(jù)所述第一時(shí)間標(biāo)簽和所述第二時(shí)間標(biāo)簽，確定出所述參考音頻文件對應(yīng)的未標(biāo)記語音數(shù)據(jù)。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費(fèi)下載。

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海明略人工智能（集團(tuán)）有限公司，未經(jīng)上海明略人工智能（集團(tuán)）有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010852414.2/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種BMC的IPMI命令處理方法、系統(tǒng)、設(shè)備以及介質(zhì)
下一篇：檢測六氟化硫氣體濃度的裝置

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L15-00 語音識別
G10L15-02 .語音識別的特征提取；識別單位的選擇
G10L15-04 .分段或字極限檢測
G10L15-06 .創(chuàng)建基準(zhǔn)模板；訓(xùn)練語音識別系統(tǒng)，例如對說話者聲音特征的適應(yīng)
G10L15-08 .語音分類或檢索
G10L15-20 .專門適用于不利環(huán)境

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊】