[發(fā)明專利]用于遠(yuǎn)場(chǎng)和近場(chǎng)聲音輔助應(yīng)用的利用超短語(yǔ)音分段進(jìn)行的說話者標(biāo)識(shí)在審
| 申請(qǐng)?zhí)枺?/td> | 201880083790.0 | 申請(qǐng)日: | 2018-12-14 |
| 公開(公告)號(hào): | CN111566729A | 公開(公告)日: | 2020-08-21 |
| 發(fā)明(設(shè)計(jì))人: | Z.沈;F.翁;G.貝;P.安基迪特拉庫(kù)爾 | 申請(qǐng)(專利權(quán))人: | 羅伯特·博世有限公司 |
| 主分類號(hào): | G10L17/02 | 分類號(hào): | G10L17/02;G10L17/10;G10L17/12 |
| 代理公司: | 中國(guó)專利代理(香港)有限公司 72001 | 代理人: | 畢錚;申屠偉進(jìn) |
| 地址: | 德國(guó)斯*** | 國(guó)省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用于 近場(chǎng) 聲音 輔助 應(yīng)用 利用 超短 語(yǔ)音 分段 進(jìn)行 說話 標(biāo)識(shí) | ||
1.一種將說話者認(rèn)證為登記用戶的方法,包括:
利用處理器檢測(cè)對(duì)應(yīng)于由說話者說出的關(guān)鍵短語(yǔ)的輸入關(guān)鍵短語(yǔ)數(shù)據(jù);
利用處理器,參照輸入關(guān)鍵短語(yǔ)數(shù)據(jù)和存儲(chǔ)在操作性地連接到處理器的存儲(chǔ)器中的來自登記用戶的語(yǔ)音的文本相關(guān)聲學(xué)說話者模型,計(jì)算文本相關(guān)分?jǐn)?shù);
利用處理器,參照輸入關(guān)鍵短語(yǔ)數(shù)據(jù)以及存儲(chǔ)在存儲(chǔ)器中的來自登記用戶的語(yǔ)音的文本無關(guān)聲學(xué)說話者模型,計(jì)算文本無關(guān)分?jǐn)?shù);
利用處理器,參照文本相關(guān)分?jǐn)?shù)和文本無關(guān)分?jǐn)?shù),計(jì)算針對(duì)將說話者認(rèn)證為登記用戶的置信度分?jǐn)?shù);
當(dāng)置信度分?jǐn)?shù)指示輸入關(guān)鍵短語(yǔ)數(shù)據(jù)對(duì)應(yīng)于來自登記用戶的語(yǔ)音時(shí),將說話者認(rèn)證為登記用戶;以及
當(dāng)置信度分?jǐn)?shù)指示輸入關(guān)鍵短語(yǔ)數(shù)據(jù)不對(duì)應(yīng)于來自登記用戶的語(yǔ)音時(shí),拒絕將說話者認(rèn)證為登記用戶。
2.根據(jù)權(quán)利要求1所述的方法,其中文本相關(guān)模型是使用梅爾頻率倒譜系數(shù)(“MFCC”)的群組形成的隱馬爾可夫模型(“HMM”),所述梅爾頻率倒譜系數(shù)從與由登記用戶對(duì)關(guān)鍵短語(yǔ)的發(fā)聲相對(duì)應(yīng)的所登記關(guān)鍵短語(yǔ)數(shù)據(jù)中提取,每個(gè)群組對(duì)應(yīng)于如登記用戶講出的關(guān)鍵短語(yǔ)的個(gè)別部分。
3.根據(jù)權(quán)利要求2所述的方法,其中:
檢測(cè)輸入關(guān)鍵短語(yǔ)數(shù)據(jù)包括:
將輸入音頻數(shù)據(jù)的一部分分離成預(yù)定分段;
利用處理器提取指示每個(gè)分段內(nèi)存在的人類語(yǔ)音特征的MFCC;并且
計(jì)算文本相關(guān)分?jǐn)?shù)包括:
使用HMM生成對(duì)應(yīng)于關(guān)鍵短語(yǔ)的MFCC;以及
將維特比算法應(yīng)用于從輸入音頻數(shù)據(jù)的所述部分中提取的MFCC和利用HMM生成的MFCC。
4.根據(jù)權(quán)利要求1所述的方法,其中檢測(cè)輸入關(guān)鍵短語(yǔ)數(shù)據(jù)包括:
將輸入音頻數(shù)據(jù)的一部分分離成預(yù)定分段;
利用處理器提取指示每個(gè)分段內(nèi)存在的人類語(yǔ)音特征的梅爾頻率倒譜系數(shù)(“MFCC”);
將所提取的MFCC與對(duì)應(yīng)于來自存儲(chǔ)在存儲(chǔ)器中的通用背景模型(“UBM”)的關(guān)鍵短語(yǔ)的MFCC進(jìn)行比較;以及
基于所述比較來確定輸入音頻數(shù)據(jù)的所述部分包括關(guān)鍵短語(yǔ)的發(fā)聲。
5.根據(jù)權(quán)利要求4所述的方法,其中計(jì)算文本相關(guān)分?jǐn)?shù)包括:
使用文本相關(guān)模型來生成對(duì)應(yīng)于關(guān)鍵短語(yǔ)的MFCC;
基于所提取的MFCC和利用文本相關(guān)模型生成的MFCC計(jì)算原始文本相關(guān)分?jǐn)?shù);以及
從原始文本相關(guān)分?jǐn)?shù)中減去文本相關(guān)模型的特定于說話者的閾值偏差,其中文本相關(guān)模型的特定于說話者的閾值偏差基于對(duì)利用文本相關(guān)模型生成的MFCC和對(duì)應(yīng)于來自與登記用戶性別匹配的UBM的關(guān)鍵短語(yǔ)的MFCC的比較。
6.根據(jù)權(quán)利要求5所述的方法,其中計(jì)算文本無關(guān)分?jǐn)?shù)包括:
使用文本無關(guān)模型生成對(duì)應(yīng)于關(guān)鍵短語(yǔ)的MFCC;
基于所提取的MFCC和利用文本無關(guān)模型生成的MFCC計(jì)算原始文本無關(guān)分?jǐn)?shù);以及
從原始文本無關(guān)分?jǐn)?shù)中減去文本無關(guān)模型的特定于說話者的閾值偏差,其中文本無關(guān)模型的特定于說話者的閾值偏差基于對(duì)利用文本無關(guān)模型生成的MFCC和對(duì)應(yīng)于來自與登記用戶性別匹配的UBM的關(guān)鍵短語(yǔ)的MFCC的比較。
7.根據(jù)權(quán)利要求4所述的方法,進(jìn)一步包括:
利用處理器對(duì)輸入音頻數(shù)據(jù)應(yīng)用遠(yuǎn)場(chǎng)增強(qiáng)。
8.根據(jù)權(quán)利要求1所述的方法,進(jìn)一步包括:
利用處理器將檢測(cè)到的輸入關(guān)鍵短語(yǔ)數(shù)據(jù)與存儲(chǔ)在存儲(chǔ)器中的對(duì)應(yīng)于多個(gè)登記用戶的所登記關(guān)鍵短語(yǔ)數(shù)據(jù)進(jìn)行比較;
計(jì)算每個(gè)登記用戶的可能性分?jǐn)?shù),每個(gè)可能性分?jǐn)?shù)指示檢測(cè)到的輸入關(guān)鍵短語(yǔ)數(shù)據(jù)與每個(gè)登記用戶的對(duì)應(yīng)所登記關(guān)鍵短語(yǔ)數(shù)據(jù)之間的相似度;以及
選擇具有與檢測(cè)到的輸入關(guān)鍵短語(yǔ)數(shù)據(jù)具有最高相似度的所登記關(guān)鍵短語(yǔ)數(shù)據(jù)的登記用戶,作為說話者的可能標(biāo)識(shí)。
9.根據(jù)權(quán)利要求1所述的方法,其中置信度分?jǐn)?shù)被計(jì)算為文本相關(guān)分?jǐn)?shù)和文本無關(guān)分?jǐn)?shù)的線性組合。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于羅伯特·博世有限公司,未經(jīng)羅伯特·博世有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201880083790.0/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種進(jìn)行近場(chǎng)通信安全性保護(hù)的方法及移動(dòng)通信終端
- 一種服務(wù)器電磁輻射近場(chǎng)探測(cè)分析方法
- 近場(chǎng)通信認(rèn)證方法、證書授權(quán)中心及近場(chǎng)通信設(shè)備
- 具有近場(chǎng)通信功能的路由器和近場(chǎng)通信系統(tǒng)
- 整合近場(chǎng)通信的觸控集成電路及其近場(chǎng)通信方法
- 天線裝置及電子設(shè)備
- 天線裝置及電子設(shè)備
- 近場(chǎng)通信方法、裝置、存儲(chǔ)介質(zhì)及移動(dòng)終端
- 一種近場(chǎng)通信設(shè)備和發(fā)射功率的確定方法
- 智能設(shè)備近場(chǎng)感知方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)





