[發(fā)明專利]喚醒模型訓(xùn)練方法、喚醒詞識別方法、裝置及電子設(shè)備在審
| 申請?zhí)枺?/td> | 202010647828.1 | 申請日: | 2020-07-07 |
| 公開(公告)號: | CN111833902A | 公開(公告)日: | 2020-10-27 |
| 發(fā)明(設(shè)計)人: | 曹冰 | 申請(專利權(quán))人: | OPPO廣東移動通信有限公司 |
| 主分類號: | G10L25/30 | 分類號: | G10L25/30;G10L25/51;G10L25/78;G06K9/62;G06N3/08;G10L15/22 |
| 代理公司: | 深圳市智圈知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44351 | 代理人: | 呂靜 |
| 地址: | 523860 廣東*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 喚醒 模型 訓(xùn)練 方法 識別 裝置 電子設(shè)備 | ||
1.一種喚醒模型訓(xùn)練方法,其特征在于,所述方法包括:
通過語音檢測算法對采集的音頻進(jìn)行語音檢測,確定所述采集的音頻中語音信號的起點和終點,所述語音信號中包括喚醒詞;
確定所述語音信號中起點和終點之間的中間點;
從所述采集的音頻中選取包括所述中間點的預(yù)設(shè)時間長度的音頻段,作為正樣本;
從所述采集的音頻中,選取預(yù)設(shè)時間長度且不同于所述正樣本的音頻段,作為負(fù)樣本;
通過所述正樣本和負(fù)樣本對待訓(xùn)練喚醒模型進(jìn)行訓(xùn)練。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述通過所述正樣本和負(fù)樣本對待訓(xùn)練喚醒模型進(jìn)行訓(xùn)練之后,還包括:
記錄訓(xùn)練后的喚醒模型的識別準(zhǔn)確率;
改變預(yù)設(shè)時間長度,執(zhí)行步驟從所述采集的音頻中選取包括所述中間點的預(yù)設(shè)時間長度的音頻段至記錄訓(xùn)練后的喚醒模型的識別準(zhǔn)確率,直至獲得識別準(zhǔn)確率最高的喚醒模型,作為用于喚醒詞識別的喚醒模型。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述記錄訓(xùn)練后的喚醒模型對正樣本和負(fù)樣本的識別準(zhǔn)確率;改變預(yù)設(shè)時間長度,執(zhí)行步驟從所述采集的音頻中選取包括所述中間點的預(yù)設(shè)時間長度的音頻段至記錄訓(xùn)練后的喚醒模型的識別準(zhǔn)確率,直至獲得識別準(zhǔn)確率最高的喚醒模型,作為用于喚醒詞識別的喚醒模型,包括:
在第一次確定的預(yù)設(shè)時間長度的基礎(chǔ)上,依次減小預(yù)設(shè)時間長度,對應(yīng)減小的每一個預(yù)設(shè)時間長度,執(zhí)行步驟從所述采集的音頻中選取包括所述中間點的預(yù)設(shè)時間長度的音頻段至記錄訓(xùn)練后的喚醒模型的識別準(zhǔn)確率,
若當(dāng)前記錄的識別準(zhǔn)確率小于上一次記錄的識別準(zhǔn)確率,在第一次確定的預(yù)設(shè)時間長度的基礎(chǔ)上,依次增大預(yù)設(shè)時間長度,對應(yīng)增大的每一個預(yù)設(shè)時間長度,執(zhí)行步驟從所述采集的音頻中選取包括所述中間點的預(yù)設(shè)時間長度的音頻段至記錄訓(xùn)練后的喚醒模型的識別準(zhǔn)確率,
若當(dāng)前記錄的識別準(zhǔn)確率小于上一次記錄的識別準(zhǔn)確率,以記錄的最高的識別準(zhǔn)確率對應(yīng)的喚醒模型作為用于喚醒詞識別的喚醒模型。
4.根據(jù)權(quán)利要求1至3任一項所述的方法,其特征在于,所述從所述采集的音頻中選取包括所述中間點的預(yù)設(shè)時間長度的音頻段,包括:
從所述中間點向前和向后分別選取指定時間長度的音頻段,所述指定時間長度為所述預(yù)設(shè)時間長度的一半。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述通過語音檢測算法對采集的音頻進(jìn)行語音檢測之前,還包括:
通過所述語音檢測算法對測試音頻進(jìn)行語音檢測,確定所述測試音頻中語音信號的起點和終點;
判斷檢測到的所述測試音頻中語音信號的起點和終點是否準(zhǔn)確;
若不準(zhǔn)確,調(diào)整所述語音檢測算法的參數(shù),重新執(zhí)行所述通過所述語音檢測算法對測試音頻進(jìn)行語音檢測,確定所述測試音頻中語音信號的起點和終點;判斷檢測的所述測試音頻的起點和終點是否準(zhǔn)確;若不準(zhǔn)確,調(diào)整所述語音檢測算法的參數(shù)的步驟,直至檢測的所述測試音頻的起點和終點準(zhǔn)確。
6.一種喚醒詞識別方法,其特征在于,根據(jù)權(quán)利要求1至5任一項所述的方法獲得的喚醒模型進(jìn)行喚醒詞識別,所述方法包括:
通過語音檢測算法從待識別音頻中確定語音信號的中間點;
從所述待識別音頻中選取包括所述中間點的預(yù)設(shè)時間長度的音頻段,作為輸入音頻;
將所述輸入音頻輸入所述喚醒模型,獲取所述喚醒模型的輸出結(jié)果;
若所述輸出結(jié)果表示所述輸入音頻與正樣本為相同類別,執(zhí)行識別到喚醒詞對應(yīng)的操作。
7.一種喚醒模型訓(xùn)練裝置,其特征在于,所述訓(xùn)練裝置包括:
語音檢測模塊,用于通過語音檢測算法對采集的音頻進(jìn)行語音檢測,確定所述采集的音頻中語音信號的起點和終點,所述語音信號中包括喚醒詞;
音頻處理模塊,用于確定所述語音信號中起點和終點之間的中間點;
正樣本選取模塊,用于從所述采集的音頻中選取包括所述中間點的預(yù)設(shè)時間長度的音頻段,作為正樣本;
負(fù)樣本選取模塊,用于從所述采集的音頻中,選取預(yù)設(shè)時間長度且不同于所述正樣本的音頻段,作為負(fù)樣本;
訓(xùn)練模塊,用于通過所述正樣本和負(fù)樣本對喚醒模型進(jìn)行訓(xùn)練。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于OPPO廣東移動通信有限公司,未經(jīng)OPPO廣東移動通信有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010647828.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:電子設(shè)備
- 下一篇:智能手術(shù)床





