[發明專利]一種基于深度學習的機器人語音控制方法在審
| 申請號: | 202011196439.8 | 申請日: | 2020-10-30 |
| 公開(公告)號: | CN112289309A | 公開(公告)日: | 2021-01-29 |
| 發明(設計)人: | 王曉華;趙晨鑫;李鵬飛;張蕾;蘇澤斌 | 申請(專利權)人: | 西安工程大學 |
| 主分類號: | G10L15/14 | 分類號: | G10L15/14;G10L15/16;G10L25/24;G10L15/06;G10L15/22;G10L15/26;G10L15/02 |
| 代理公司: | 西安弘理專利事務所 61214 | 代理人: | 寧文濤 |
| 地址: | 710048 陜*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 機器人 語音 控制 方法 | ||
本發明一種基于深度學習的機器人語音控制方法依據卷積神經網絡(CNN)、長短期記憶模型(LSTM)、時序分類模型(CTC)相結合的一種新的語音識別模型,搭建CNN?LSTM?CTC聲學模型,通過SMFCC算法完成語音輸入信號的特征提取,利用新的混合聲學模型提取更深層的特征,經LSTM網絡對語音數據進行時序特征提取,再經CTC算法完成對語音信號的訓練和識別。本發明一種基于深度學習的機器人語音控制方法能夠有效地改善傳統方法中訓練時間短和識別準確率低的缺點,使得人機交互更加高效便捷。
技術領域
本發明屬于人工智能技術領域,具體涉及一種基于深度學習的機器人語音控制方法。
背景技術
近些年來,機器人智能水平的提高和語音識別技術研究取得重大突破,機器人語音控制技術已經成為科技發展最前沿的領域之一。
隨著不同功能的移動機器人被廣泛應用到各個領域中,鍵盤和手柄等傳統的控制方式已經難以滿足人與機器人協同工作的需求,人們迫切需要一種高效方便的方法實現人機交互,機器人語音控制技術能夠讓機器人對人的語音內容進行識別,并按照人的指令完成指定任務。
機器人語音控制可分為幾個過程:語音信號的預處理、特征參數提取、語音信號的識別與控制。其中,基于神經網絡的語音識別方法是目前最熱門的語音識別方法之一,該方法通過建立語音信號的聲學模型,有效地改善了傳統方法中訓練時間短和識別準確率低的缺點。目前,國內在這方面尚無十分成熟的技術。
發明內容
本發明的目的是提供一種基于深度學習的機器人語音控制方法,該方法簡化了基于GMM-HMM的混合聲學模型,加強了對相鄰語音幀之間的聯系。
本發明所采用的技術方案是一種基于深度學習的機器人語音控制方法,具體步驟如下:
步驟1:利用SMFCC算法提取語音信號的特征;
步驟2:應用CNN網絡提取更加深層的語音特征;
步驟3:經池化層處理后的語音數據送入LSTM網絡進行時序特征提取;
步驟4:判斷誤差值是否滿足預先設置的閥值,或聲學模型優化的迭代次數是否已達到預設值;
若是,則訓練結束輸出權值;
若否,返回步驟3繼續訓練。
步驟5:利用CTC算法對LSTM各個節點的輸出權值進行自動對齊,完成語音信號的訓練和識別。
步驟6:使用python編寫語音控制機器人的代碼,通過ROS的通信機制將各個模塊串接,完成語音控制機器人過程。
本發明的特點還在于:
步驟1中提取特征參數的具體過程為:
步驟1.1:對輸入的語音信號進行預處理;
步驟1.2:對S矩陣A進行奇異值分解(SVD)計算,經降噪處理后,得到矩陣B;
步驟1.3:對矩陣B求取統計值得到2N維的統計值向量C;
步驟1.4:通過Mel濾波器組以及求對數能量,得到離散余弦變換(DCT)倒譜,經DCT倒譜得到75維的SMFCC特征。
步驟1.1中對輸入的語音信號x(n)進行預處理,對一幀語音信號進行S變換,得到S矩陣A:
對語音信號x(t)進行S變換:
g(τ,f)為高斯函數:
式(1)中,τ參數為高斯窗函數中心點,f為頻率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安工程大學,未經西安工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011196439.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種道路巡航方法、裝置及介質
- 下一篇:液體混合桶





