[發(fā)明專利]一種基于深度學習的機器人語音控制方法在審

申請?zhí)枺?/td>	202011196439.8	申請日：	2020-10-30
公開（公告）號：	CN112289309A	公開（公告）日：	2021-01-29
發(fā)明（設計）人：	王曉華;趙晨鑫;李鵬飛;張蕾;蘇澤斌	申請（專利權）人：	西安工程大學
主分類號：	G10L15/14	分類號：	G10L15/14;G10L15/16;G10L25/24;G10L15/06;G10L15/22;G10L15/26;G10L15/02
代理公司：	西安弘理專利事務所 61214	代理人：	寧文濤
地址：	710048 陜***	國省代碼：	陜西;61
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于深度學習機器人語音控制方法
鉆瓜網(wǎng) 技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明一種基于深度學習的機器人語音控制方法依據(jù)卷積神經(jīng)網(wǎng)絡(CNN)、長短期記憶模型(LSTM)、時序分類模型(CTC)相結合的一種新的語音識別模型，搭建CNN?LSTM?CTC聲學模型，通過SMFCC算法完成語音輸入信號的特征提取，利用新的混合聲學模型提取更深層的特征，經(jīng)LSTM網(wǎng)絡對語音數(shù)據(jù)進行時序特征提取，再經(jīng)CTC算法完成對語音信號的訓練和識別。本發(fā)明一種基于深度學習的機器人語音控制方法能夠有效地改善傳統(tǒng)方法中訓練時間短和識別準確率低的缺點，使得人機交互更加高效便捷。

技術領域

本發(fā)明屬于人工智能技術領域，具體涉及一種基于深度學習的機器人語音控制方法。

背景技術

近些年來，機器人智能水平的提高和語音識別技術研究取得重大突破，機器人語音控制技術已經(jīng)成為科技發(fā)展最前沿的領域之一。

隨著不同功能的移動機器人被廣泛應用到各個領域中，鍵盤和手柄等傳統(tǒng)的控制方式已經(jīng)難以滿足人與機器人協(xié)同工作的需求，人們迫切需要一種高效方便的方法實現(xiàn)人機交互，機器人語音控制技術能夠讓機器人對人的語音內(nèi)容進行識別，并按照人的指令完成指定任務。

機器人語音控制可分為幾個過程：語音信號的預處理、特征參數(shù)提取、語音信號的識別與控制。其中，基于神經(jīng)網(wǎng)絡的語音識別方法是目前最熱門的語音識別方法之一，該方法通過建立語音信號的聲學模型，有效地改善了傳統(tǒng)方法中訓練時間短和識別準確率低的缺點。目前，國內(nèi)在這方面尚無十分成熟的技術。

發(fā)明內(nèi)容

本發(fā)明的目的是提供一種基于深度學習的機器人語音控制方法，該方法簡化了基于GMM-HMM的混合聲學模型，加強了對相鄰語音幀之間的聯(lián)系。

本發(fā)明所采用的技術方案是一種基于深度學習的機器人語音控制方法，具體步驟如下：

步驟1：利用SMFCC算法提取語音信號的特征；

步驟2：應用CNN網(wǎng)絡提取更加深層的語音特征；

步驟3：經(jīng)池化層處理后的語音數(shù)據(jù)送入LSTM網(wǎng)絡進行時序特征提取；

步驟4：判斷誤差值是否滿足預先設置的閥值，或聲學模型優(yōu)化的迭代次數(shù)是否已達到預設值；

若是，則訓練結束輸出權值；

若否，返回步驟3繼續(xù)訓練。

步驟5：利用CTC算法對LSTM各個節(jié)點的輸出權值進行自動對齊，完成語音信號的訓練和識別。

步驟6：使用python編寫語音控制機器人的代碼，通過ROS的通信機制將各個模塊串接，完成語音控制機器人過程。

本發(fā)明的特點還在于：