[發明專利]基于改進Yolov2目標檢測和語音識別的交互式導盲系統及方法在審
| 申請號: | 201910909431.2 | 申請日: | 2019-09-25 |
| 公開(公告)號: | CN110728308A | 公開(公告)日: | 2020-01-24 |
| 發明(設計)人: | 彭文杰;余菲;林坤陽;林澤鋒;鄭東潤;范智博;羅家祥 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G10L13/04;G10L15/22;G10L15/26 |
| 代理公司: | 44245 廣州市華學知識產權代理有限公司 | 代理人: | 林梅繁 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 中央處理器 導盲系統 語音合成裝置 麥克風 道路規劃 深度相機 高端 電源 中央處理器輸出 目標檢測單元 用戶語音信息 語音識別單元 語音識別技術 計算機視覺 控制軟件 目標檢測 圖像采集 系統控制 信號傳遞 語音識別 語音信息 數據處理 深度圖 尋物 合成 采集 場景 供電 播放 部署 改進 | ||
1.基于改進Yolov2的目標檢測和語音識別的交互式導盲系統,其特征在于,包括中央處理器及與其相連的深度相機、高端語音合成裝置、麥克風和電源,其中:
中央處理器:用于系統控制、數據處理和信號傳遞;所述中央處理器上部署有交互式導盲系統的控制軟件,包括:目標檢測單元、語音識別單元和道路規劃單元;
深度相機:用于對當前場景進行圖像采集,生成RGB圖像與深度圖;
高端語音合成裝置:用于對所述中央處理器輸出的語音信息進行合成,播放尋物結果或道路規劃情況;
麥克風:用于采集用戶語音信息,并將采集的用戶語音信息傳送給所述中央處理器;
電源:用于給所述中央處理器供電。
2.根據權利要求1所述的交互式導盲系統,其特征在于,所述目標檢測單元基于改進的Yolov2卷積神經網絡實現,對特定整理的數據集進行訓練,以實現物體定位與分類功能。
3.根據權利要求2所述的交互式導盲系統,其特征在于,所述改進的Yolov2卷積神經網絡包括特征提取層和檢測層,使用深度可分離卷積操作取代特征提取層的卷積操作,所述深度可分離卷積操作分為逐深度卷積和逐點卷積,逐深度卷積將輸入的特征向量根據通道數的維度進行分離操作,形成個數與通道數量相同的分離的特征向量,將分離的特征向量分別與k×k大小的卷積核進行卷積操作,完成該操作以后按原順序將分離的特征向量融合,再使用1×1的卷積核進行逐點卷積對輸出的通道數量進行壓縮。
4.根據權利要求3所述的交互式導盲系統,其特征在于,所述改進的Yolov2卷積神經網絡特征提取層中的卷積模塊block工作流程包括:
①當輸入一個特征向量到block中之后,使用1×1的卷積核對其進行通道數量的延伸并使用ReLU6作為其激活函數F(x)=min(max(0,x),6),再使用k×k的卷積核,以所述深度可分離卷積方式進行操作,此時輸出的特征向量V1的維度為:c×h×w,其中:c為通道數量,h為特征向量的高度,w為特征向量的寬度;
②將特征向量V1制作一份副本V2,將特征向量V2進行全局池化的操作以得到c×1×1大小的特征向量,再對其輸入至兩個連續的全連接層進行通道的壓縮以及延伸,保持輸出的特征向量維度大小不變,將其通過sigmoid函數激活使其所有值縮放至0到1之間構成維度大小為c×1×1的特征向量V3;
③將特征向量V3分別對特征向量V1的每個通道做加權乘法,并使用1×1的卷積核進行通道壓縮以使得其通道與原始輸入特征向量通道數量相同,再將其兩者疊加以保留部分原始特征信息。
5.根據權利要求1所述的交互式導盲系統,其特征在于,所述語音識別單元用于對語音指令編碼并輸出語音信息,包括喚醒詞檢測模塊、關鍵詞檢測模塊和語音指導模塊,在麥克風的采樣點達到一定數目后對音頻進行一次處理,在交互式導盲系統初始情況下,語音識別單元為節省功耗,只有喚醒詞檢測模塊工作,其余模塊處于待機狀態。
6.根據權利要求5所述的交互式導盲系統,其特征在于,所述喚醒詞檢測模塊負責對喚醒詞的檢測與識別,系統運行經由喚醒詞啟動,其工作流程包括:
①當用戶發出指令的時候,對麥克風采集到的時域信號進行基本處理,包括分幀、加窗、傅里葉變換和取對數等,獲取其語譜圖;
②對語譜圖進行編碼,得到信號編碼;
③基于信號編碼對音頻中是否含有喚醒詞進行預測,信號編碼經過門控循環單元層、全連接層等,中間使用隨機失活實現神經網絡的正則化,輸出音頻中含有喚醒詞的概率值;
④將喚醒詞的概率值與喚醒詞閾值作比較,若大于喚醒詞閾值則成功喚醒,啟動關鍵詞檢測模塊,暫時關閉喚醒詞檢測模塊,否則系統不作應答,重復喚醒詞檢測步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910909431.2/1.html,轉載請聲明來源鉆瓜專利網。





