[發明專利]一種基于音視頻耦合的鳴笛車輛定位方法及系統在審
| 申請號: | 202211445647.6 | 申請日: | 2022-11-18 |
| 公開(公告)號: | CN115825869A | 公開(公告)日: | 2023-03-21 |
| 發明(設計)人: | 蔡銘;王梓潤;施一川;葉碧宇;陳燕菲;譚景俊 | 申請(專利權)人: | 中山大學 |
| 主分類號: | G01S5/22 | 分類號: | G01S5/22;G10L25/51;G10L25/03;G10L25/09;G10L25/24;G10L25/30;G10L21/0208;G06T7/70;G06N3/08;G06T7/246;G06N3/0464 |
| 代理公司: | 廣州嘉權專利商標事務所有限公司 44205 | 代理人: | 梁嘉琦 |
| 地址: | 510275 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 視頻 耦合 鳴笛 車輛 定位 方法 系統 | ||
本發明公開了一種基于音視頻耦合的鳴笛車輛定位方法及系統,方法包括:首先獲取待分析音頻數據和待分析視頻數據;接著提取所述待分析音頻數據的時域特征和頻域特征,根據所述時域特征和所述頻域特征識別得到鳴笛聲的音頻片段;根據所述鳴笛聲的音頻片段確定鳴笛的聲源方向;然后根據所述待分析視頻數據確定鳴笛車輛位置;最后根據所述聲源方向和所述鳴笛車輛位置,確定鳴笛車輛信息。本發明的成本低、計算量小且準確率高,可廣泛應用于計算機技術領域。
技術領域
本發明涉及計算機技術領域,尤其是一種基于音視頻耦合的鳴笛車輛定位方法及系統。
背景技術
近年來,城市交通噪聲污染問題日益凸顯,汽車鳴笛問題呈現泛濫之勢。違章鳴笛所帶來的噪聲污染會影響到人們生活質量的提高,尤其在特殊場所比如學校、居民區、醫院等區域,有效遏制汽車違章鳴笛變得尤為重要。目前,噪聲污染管控已成為我國環保部門的重點任務之一,相關政策明確規定禁止機動車在禁鳴路段鳴笛,越來越多的城市也將違法鳴笛納入管理常態。但汽車鳴笛噪聲較強的移動性和實時性給交通噪聲執法監管帶來很大困難。
實現車輛鳴笛車輛識別定位系統需要解決的關鍵問題是鳴笛聲的識別與鳴笛聲的定位。其中,鳴笛聲的識別涉及聲音識別技術,鳴笛聲的定位涉及聲源定位技術。
當前主流的聲音識別技術是通過從目標聲音中獲取聲音特征并對其進行分析,然后從多類別聲音中分辨和提取出目標聲源。對鳴笛聲的提取本質上一種分類問題,國內外針對聲音的分類和識別技術的研究方法也是多種多樣,一些常用的分類器包括:神經網絡,隱馬爾可夫模型,支持向量機,高斯混合模型等。其中神經網絡是近年較為熱門的方式,這種方法主要通過模擬人腦的神經系統來實現對復雜信息的處理。近些年,來神經網絡已在眾多領域得到了廣泛的運用,它能自行提取輸入數據(音頻時序數據)中深層次,高語義的特征,相較于普通模板匹配的方法,神經網絡的方法往往能獲得更高的分類準確率,但針對不同的問題,我們仍需選擇合適的特征作為網絡輸入,應用于特定的網絡結構,并對網絡進行調整以及對所選特征進行組合優化,才能使神經網絡達到最好的性能。目前聲音識別技術研究領域主要存在的難點有:各種聲源特征如何進行組合選取;多種復雜模糊的聲音樣本如何匹配;聲音受到環境影響導致測量誤差如何減少;如何在有限的算力下盡可能提升聲音識別的準確度。
這里的聲源定位技術指的是基于麥克風陣列聲源定位技術,即使用麥克風陣列,利用多個麥克風在空間中的不同位點對聲信號進行測量。由于聲信號到達各麥克風的時間有不同程度的延遲,利用算法對測量到的多通道聲信號進行處理,由此獲得聲源點相對于麥克風的到達方向(包括方位角、俯仰角)和距離等。聲源定位中需要考慮的因素有定位的精度和算法的實時性,同時這也是當前研究的重點和難點。傳統的基于麥克風陣列的聲源定位方法大致基于以下三種:基于波束形成器、基于高分辨譜估計、基于時延差(TDOA)。基于深度學習的聲源定位方法則是通過對大量已知數據的學習,訓練模型來描述聲源位置和陣列信號特征之間的映射關系。傳統聲源定位方法是對接收信號進行處理,估計聲源的位置信息。其中,基于TDOA的方法和基于可控波束形成的方法研究較多。然而,傳統定位算法容易受到實際環境中存在的混響,噪聲等影響(經典的波束形成方法無法克服運動噪聲存在的多普勒效應)且傳統定位算法的頻譜分析對系統計算量需求較大,難以滿足系統的實時性要求。相比之下,基于深度學習的聲源定位算法,通過對大量數據的學習得到環境的先驗信息,能夠提升系統的魯棒性,但仍需傳統處理方法進行特征提取,且存在著模型選擇,數據集難以獲取等問題。
現有的技術一般直接采用聲學攝像頭直接耦合視頻的方式進行鳴笛車輛識別和執法,這種成本高,處理運算要求高,且不易維護。現有技術的缺點:
1、成本高。現有技術直接采用聲學攝像頭直接耦合視頻的方式進行鳴笛車輛識別。聲學攝像頭一般采用30個以上的麥克風,完成極高精度的聲源定位,但是初期構建成本極高,且在鳴笛聲識別中不需要使用到這么高精度的設備。因此,我們采用成本相對現有方案要低很多的線性麥克風陣列給出一個低成本方案。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中山大學,未經中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211445647.6/2.html,轉載請聲明來源鉆瓜專利網。





