[發(fā)明專利]端到端語音喚醒方法、裝置及計算機設(shè)備在審
| 申請?zhí)枺?/td> | 201810763704.2 | 申請日: | 2018-07-12 |
| 公開(公告)號: | CN110782898A | 公開(公告)日: | 2020-02-11 |
| 發(fā)明(設(shè)計)人: | 姚光超 | 申請(專利權(quán))人: | 北京搜狗科技發(fā)展有限公司;搜狗(杭州)智能科技有限公司 |
| 主分類號: | G10L15/26 | 分類號: | G10L15/26;G10L15/22;G10L15/06;G10L17/00 |
| 代理公司: | 11510 北京華圣典睿知識產(chǎn)權(quán)代理有限公司 | 代理人: | 趙景平 |
| 地址: | 100084 北京市海淀區(qū)中關(guān)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 目標(biāo)發(fā)音 喚醒 概率 聲學(xué)模型 聲學(xué)特征 語音幀 語音 計算機設(shè)備 位置計算 端到端 逐幀 輸出 檢測 | ||
本發(fā)明公開了一種端到端語音喚醒方法、裝置及計算機設(shè)備,該方法包括:接收待檢測語音;依次提取每個語音幀的聲學(xué)特征;將提取的聲學(xué)特征輸入聲學(xué)模型,得到所述聲學(xué)模型輸出的每個語音幀中各目標(biāo)發(fā)音單元的概率;逐幀計算各目標(biāo)發(fā)音單元的累積概率,并確定各目標(biāo)發(fā)音單元的起始位置和結(jié)束位置;根據(jù)所述累積概率及起始位置和結(jié)束位置計算各目標(biāo)發(fā)音單元的長度及平均概率;根據(jù)各目標(biāo)發(fā)音單元的長度和/或平均概率進行喚醒操作。利用本發(fā)明,可以降低誤喚醒率,提高喚醒效果。
技術(shù)領(lǐng)域
本發(fā)明涉及語音喚醒技術(shù)領(lǐng)域,具體涉及一種端到端語音喚醒方法、裝置及計算機設(shè)備。
背景技術(shù)
語音喚醒是指在連續(xù)語流中實時檢測出說話人特定片段,其目的就是將設(shè)備從休眠狀態(tài)激活至運行狀態(tài)。語音喚醒的應(yīng)用領(lǐng)域非常廣泛,比如機器人、音箱、汽車等。評價語音喚醒效果的主要指標(biāo)有喚醒率、誤喚醒率,語音識別過程中解碼器性能的優(yōu)劣對其起著關(guān)鍵性作用。
對于端到端的語音喚醒,解碼器中的每一個聲學(xué)模型對應(yīng)一個發(fā)音單元,所述發(fā)音單元可以是詞、字、或者音節(jié)。聲學(xué)模型主要用于計算語音特征和每個發(fā)音模板之間的似然度,其輸入為語音特征,輸出為目標(biāo)發(fā)音單元的概率。比如,輸入一段語音,其中包含喚醒詞“你好搜狗”,基于字的端到端聲學(xué)模型輸出為:“你”,“好”,“搜”,“狗”,“silence”和“other”六個輸出的概率,其中“silence”表示靜音輸出,“other”表示非“你好搜狗”的語音和噪音輸出。
針對上述聲學(xué)模型的輸出,現(xiàn)有技術(shù)提出了一種語音喚醒方法:采用滑動窗的方式,首先確定滑動窗口內(nèi)每個目標(biāo)發(fā)音單元對應(yīng)的聲學(xué)模型輸出的最大值,然后將這這些最大值相加取平均值,如果該平均值大于設(shè)定的閾值,則進行喚醒操作。但這種方法會導(dǎo)致誤喚醒,比如對于用戶說“狗你搜好”這樣的詞時也會喚醒。
發(fā)明內(nèi)容
本發(fā)明實施例提供一種端到端語音喚醒方法及裝置,以降低誤喚醒率。
為此,本發(fā)明提供如下技術(shù)方案:
一種端到端語音喚醒方法,所述方法包括:
接收待檢測語音;
依次提取每個語音幀的聲學(xué)特征;
將提取的聲學(xué)特征輸入聲學(xué)模型,得到所述聲學(xué)模型輸出的每個語音幀中各目標(biāo)發(fā)音單元的概率;
逐幀計算各目標(biāo)發(fā)音單元的累積概率,并確定各目標(biāo)發(fā)音單元的起始位置和結(jié)束位置;
根據(jù)所述累積概率及起始位置和結(jié)束位置計算各目標(biāo)發(fā)音單元的長度及平均概率;
根據(jù)各目標(biāo)發(fā)音單元的長度和/或平均概率進行喚醒操作。
可選地,所述聲學(xué)模型為基于喚醒詞中各目標(biāo)發(fā)音單元的端到端聲學(xué)模型。
可選地,在所述喚醒詞的前后各添加一個靜音輸出。
可選地,所述目標(biāo)發(fā)音單元為音節(jié)、或字、或詞。
可選地,所述逐幀計算各目標(biāo)發(fā)音單元的累積概率包括:
對于每個目標(biāo)發(fā)音單元,將上一幀該目標(biāo)發(fā)音單元的累積概率和當(dāng)前幀前一目標(biāo)發(fā)音單元的累積概率這兩者中的最大值,加上當(dāng)前幀該目標(biāo)發(fā)音單元的概率,作為當(dāng)前幀該目標(biāo)發(fā)音單元的累積概率。
可選地,所述根據(jù)所述累積概率及起始位置和結(jié)束位置計算各目標(biāo)發(fā)音單元的長度及平均概率包括:
將所述目標(biāo)發(fā)音單元的結(jié)束位置與起始位置相減得到所述目標(biāo)發(fā)音單元的長度;
將對應(yīng)所述結(jié)束位置的累積概率與對應(yīng)所述起始位置的累積概率相減,然后除以所述目標(biāo)發(fā)音單元的長度,得到所述目標(biāo)發(fā)音單元的平均概率。
可選地,所述根據(jù)各目標(biāo)發(fā)音單元的長度和/或平均概率進行喚醒操作包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京搜狗科技發(fā)展有限公司;搜狗(杭州)智能科技有限公司,未經(jīng)北京搜狗科技發(fā)展有限公司;搜狗(杭州)智能科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810763704.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種發(fā)音詞典的構(gòu)建方法及裝置
- 一種語言練習(xí)成果的展示方法及麥克風(fēng)設(shè)備
- 一種發(fā)音糾正方法及電子設(shè)備
- 一種語音數(shù)據(jù)處理方法、裝置、設(shè)備及介質(zhì)
- 語音檢測方法、系統(tǒng)、計算機設(shè)備及計算機存儲介質(zhì)
- 語音合成方法、裝置、計算機設(shè)備及存儲介質(zhì)
- 一種目標(biāo)聲學(xué)模型獲取方法及裝置
- 一種語音測評方法、裝置、設(shè)備及計算機存儲介質(zhì)
- 語音合成模型獲取方法、裝置、電子設(shè)備及存儲介質(zhì)
- 視頻生成方法、裝置、存儲介質(zhì)及電子設(shè)備





