[發明專利]一種基于語義SLAM方法的語音控制型移動機器人在審
| 申請號: | 202010876799.6 | 申請日: | 2020-08-27 |
| 公開(公告)號: | CN112068555A | 公開(公告)日: | 2020-12-11 |
| 發明(設計)人: | 曹毅;翟明浩;張威;林苗;周輝 | 申請(專利權)人: | 江南大學 |
| 主分類號: | G05D1/02 | 分類號: | G05D1/02;G06K9/46;G06K9/62;G06N3/04;G10L15/02;G10L15/22;G10L15/26;G10L15/30 |
| 代理公司: | 無錫盛陽專利商標事務所(普通合伙) 32227 | 代理人: | 顧吉云;黃瑩 |
| 地址: | 214000 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 語義 slam 方法 語音 控制 移動 機器人 | ||
1.一種基于語義SLAM方法的語音控制型移動機器人,其包括控制器、遠程服務器、視覺采集模塊、語音采集模塊;所述視覺采集模塊、所述語音采集模塊與所述控制器通信連接,其特征在于:
所述遠程服務器包括語義SLAM模塊、語音識別模塊;所述控制器與所述遠程服務器通信連接;
所述視覺采集模塊獲取環境的彩色信息和深度信息后發送給所述控制器,所述控制器實時地將彩色信息和深度信息以RGB圖像序列和深度圖像序列發送到遠程服務器;所述遠程服務器中的所述語義SLAM模塊采用基于深度學習的語義SLAM方法,進行計算得到機器人的位姿估計結果,并構建出環境的三維語義地圖,然后將所述位姿估計結果、所述三維語義地圖反饋給所述控制器;
所述語音采集模塊采集輸入語音后發送給所述控制器,所述控制器將語音序列發送到所述遠程服務器;所述遠程服務器中的所述語音識別模塊采用基于深度卷積神經網絡的語音控制方法,對語音序列進行識別,將識別出來的語音文字反饋給所述控制器;所述控制器將所述語音文字與預設控制指令進行對比識別,識別出語音控制命令;
所述控制器基于所述位姿估計結果、所述三維語義地圖,按照所述語音控制命令,規劃機器人的行為軌跡,并控制機器人執行動作。
2.根據權利要求1所述一種基于語義SLAM方法的語音控制型移動機器人,其特征在于:所述語音識別模塊的工作步驟,包括:
S1:特征提取;
在所述遠程服務器的語音識別模塊中,提取出反映所述原始語音信號特征的關鍵特征參數,形成待識別特征矢量序列;
S2:構建聲音識別模型;
所述聲音識別模型采用深度卷積神經網絡模型為基礎、以聯結主義時間分類器CTC作為損失函數,構建端對端方式的聲學模型;
所述聲音識別模型包括:依次連接的N個卷積塊、兩個全連接層、CTC損失函數層,其中:N為正整數;
所述卷積塊中包括卷積層、池化層;如果N個所述卷積塊共包括偶數個卷積層,則:從第一個卷積層開始每兩個連續的卷積層后跟著一個池化層;如果N個所述卷積塊共包括奇數個卷積層,則:從第一個卷積層開始每兩個連續的卷積層后跟著一個池化層,最后三個卷積層連續操作后再進行一次池化層的池化操作;
S3:訓練所述聲音識別模型,獲得訓練好的所述聲音識別模型;
S4:構建并訓練語言模型,獲得訓練好的所述語言模型;
S5:語音識別;
將所述待識別特征矢量序列輸入到訓練好的所述聲學模型中得到語音識別結果;
S6:文字轉換;
將所述語音識別結果輸入到訓練好的所述語言模型中,進行語音解碼運算,獲得所述原始語音信號被識別后的語言文字,并反饋給所述控制器。
3.根據權利要求2所述一種基于語義SLAM方法的語音控制型移動機器人,其特征在于:所述卷積塊中第一層、第二層采用32個卷積核提取語音特征;第三層、第四層采用64個卷積核提取語音特征;第五層開始為多層連續的128個卷積核的卷積層提取語音更高層特征;所述卷積塊中的卷積層的卷積核的尺寸全部設置為3×3;池化層為2×2的步長為2的最大池化操作。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江南大學,未經江南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010876799.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種大米翻滾浸泡罐
- 下一篇:一種特高壓設備直阻柔性測量裝置





