[發(fā)明專利]一種基于深度學習的機器人語音控制方法在審
| 申請?zhí)枺?/td> | 202011196439.8 | 申請日: | 2020-10-30 |
| 公開(公告)號: | CN112289309A | 公開(公告)日: | 2021-01-29 |
| 發(fā)明(設(shè)計)人: | 王曉華;趙晨鑫;李鵬飛;張蕾;蘇澤斌 | 申請(專利權(quán))人: | 西安工程大學 |
| 主分類號: | G10L15/14 | 分類號: | G10L15/14;G10L15/16;G10L25/24;G10L15/06;G10L15/22;G10L15/26;G10L15/02 |
| 代理公司: | 西安弘理專利事務(wù)所 61214 | 代理人: | 寧文濤 |
| 地址: | 710048 陜*** | 國省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 學習 機器人 語音 控制 方法 | ||
1.一種基于深度學習的機器人語音控制方法,其特征在于,具體包括如下步驟:
步驟1:利用SMFCC算法提取語音信號的特征;
步驟2:應(yīng)用CNN網(wǎng)絡(luò)提取更加深層的語音特征;
步驟3:經(jīng)池化層處理后的語音數(shù)據(jù)送入LSTM網(wǎng)絡(luò)進行時序特征提取;
步驟4:判斷誤差值是否滿足預先設(shè)置的閥值,或聲學模型優(yōu)化的迭代次數(shù)是否已達到預設(shè)值;
若是,則訓練結(jié)束輸出權(quán)值;
若否,返回步驟3繼續(xù)訓練;
步驟5:利用CTC算法對LSTM各個節(jié)點的輸出權(quán)值進行自動對齊,完成語音信號的訓練和識別;
步驟6:使用python編寫語音控制機器人的代碼,通過ROS的通信機制將各個模塊串接,完成語音控制機器人過程。
2.根據(jù)權(quán)利要求1所述的一種基于深度學習的機器人語音控制方法,其特征在于:
步驟1.1中對輸入的語音信號x(n)進行預處理,對一幀語音信號進行S變換,得到S矩陣A:
對語音信號x(t)進行S變換:
g(τ,f)為高斯函數(shù):
式(1)中,τ參數(shù)為高斯窗函數(shù)中心點,f為頻率。
步驟1.2中對矩陣A進行奇異值分解(SVD)計算,通過奇異值取舍對S矩陣進行降噪,得到矩陣B:
若A為一個信號矩陣,那么A的奇異值按遞減的順序排列為σ1,σ2,...,σi,...,σt,且σ1≥σ2≥...≥σi≥...≥σt。將S矩陣中對角元素相鄰的前一項減后一項得到k,K={k1,k2,...,ki,...,kt-1};
若ki為最大,則確定該位置為S矩陣奇異值閾值位置,并將以后的值置零,通過式(4)得到矩陣B;
設(shè)A為m×n矩陣,秩為r(rn),則存在m×n的正交陣U和n×n的正交陣V,使得:
A=UDVT (3)
步驟1.3中分別對矩陣B的行列向量求取統(tǒng)計值,得到2N維向量C,即同時對語音信號的頻域、時域進行處理;
步驟1.4中將向量C通過Mel濾波器組以及對數(shù)能量,求離散余弦變換(DCT)倒譜,得到SMFCC特征;
對數(shù)能量進行離散余弦變換(DCT),得到語音信號特征,公式如下:
式(4)中,M表示特征維數(shù),計算每幀語音命令信號的特征分布。
3.根據(jù)權(quán)利要求2所述的一種基于深度學習的機器人語音控制方法,本發(fā)明的特點還在于,步驟3中利用LSTM網(wǎng)絡(luò)在對語音數(shù)據(jù)進行時序特征提取的過程中,通過輸入門、忘記門和輸出門對上一時刻的語音信息進行篩選,有效地防止出現(xiàn)梯度消失的現(xiàn)象,從而提高識別精度。
步驟3.1中LSTM中的輸入門、忘記門和輸出門對輸入信息和上一時刻的信息進行篩選,有效防止神經(jīng)網(wǎng)絡(luò)在訓練過程中發(fā)生梯度消失的問題,從而提高識別精度。it、ft、ct、ot為各個門的基本單元,該網(wǎng)絡(luò)的輸出計算公式如下所示:
其中,x={x1,x2,…,xt,…,xN},N為輸入數(shù)據(jù)的個數(shù),σ為sigmoid激活函數(shù),bi、bf、bo、bc分別為所對應(yīng)的門的偏置,W為各個門之間的權(quán)值矩陣。
步驟3.2中Dropout層以一定比例讓LSTM網(wǎng)絡(luò)中的一些隱含層的輸出權(quán)重在訓練中停止更新,保存到下次迭代過程時再被激活,有效防止了神經(jīng)網(wǎng)絡(luò)訓練過程中的過擬合現(xiàn)象。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安工程大學,未經(jīng)西安工程大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011196439.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種道路巡航方法、裝置及介質(zhì)
- 下一篇:液體混合桶





