[發(fā)明專利]一種基于音視頻耦合的鳴笛車輛定位方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202211445647.6 | 申請日: | 2022-11-18 |
| 公開(公告)號: | CN115825869A | 公開(公告)日: | 2023-03-21 |
| 發(fā)明(設(shè)計(jì))人: | 蔡銘;王梓潤;施一川;葉碧宇;陳燕菲;譚景俊 | 申請(專利權(quán))人: | 中山大學(xué) |
| 主分類號: | G01S5/22 | 分類號: | G01S5/22;G10L25/51;G10L25/03;G10L25/09;G10L25/24;G10L25/30;G10L21/0208;G06T7/70;G06N3/08;G06T7/246;G06N3/0464 |
| 代理公司: | 廣州嘉權(quán)專利商標(biāo)事務(wù)所有限公司 44205 | 代理人: | 梁嘉琦 |
| 地址: | 510275 廣東*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 視頻 耦合 鳴笛 車輛 定位 方法 系統(tǒng) | ||
1.一種基于音視頻耦合的鳴笛車輛定位方法,其特征在于,包括:
獲取待分析音頻數(shù)據(jù)和待分析視頻數(shù)據(jù);
提取所述待分析音頻數(shù)據(jù)的時(shí)域特征和頻域特征,根據(jù)所述時(shí)域特征和所述頻域特征識別得到鳴笛聲的音頻片段;根據(jù)所述鳴笛聲的音頻片段確定鳴笛的聲源方向;
根據(jù)所述待分析視頻數(shù)據(jù)確定鳴笛車輛位置;
根據(jù)所述聲源方向和所述鳴笛車輛位置,確定鳴笛車輛信息。
2.根據(jù)權(quán)利要求1所述的一種基于音視頻耦合的鳴笛車輛定位方法,其特征在于,所述獲取待分析音頻數(shù)據(jù)和待分析視頻數(shù)據(jù),包括:
采用線性麥克風(fēng)陣列從道路交通環(huán)境中采集原始音頻數(shù)據(jù),并通過小波閾值去噪算法去除所述原始音頻數(shù)據(jù)中的交通環(huán)境噪聲,得到所述待分析音頻數(shù)據(jù);
采用攝像頭采集待分析視頻數(shù)據(jù)。
3.根據(jù)權(quán)利要求2所述的一種基于音視頻耦合的鳴笛車輛定位方法,其特征在于,所述通過小波閾值去噪算法去除所述原始音頻數(shù)據(jù)中的交通環(huán)境噪聲,得到所述待分析音頻數(shù)據(jù),包括:
通過小波閾值去噪算法對所述原始音頻數(shù)據(jù)進(jìn)行降噪處理;
在完成所述降噪處理后,對所述原始音頻數(shù)據(jù)進(jìn)行分幀和加窗處理,并對處理后的音頻數(shù)據(jù)進(jìn)行歸一化處理,得到所述待分析音頻數(shù)據(jù)。
4.根據(jù)權(quán)利要求1所述的一種基于音視頻耦合的鳴笛車輛定位方法,其特征在于,所述提取所述待分析音頻數(shù)據(jù)的時(shí)域特征和頻域特征,包括:
在時(shí)間域中,計(jì)算所述待分析音頻數(shù)據(jù)的短時(shí)過零率和短時(shí)能量,確定所述時(shí)域特征;
在頻譜域中,計(jì)算所述待分析音頻數(shù)據(jù)的基于傅里葉變換的梅爾頻率倒譜系數(shù)特征和基于小波變換的梅爾頻率倒譜系數(shù)特征,確定所述頻域特征;
將所述頻域特征中基于傅里葉變換的梅爾頻率倒譜系數(shù)特征與所述時(shí)域特征中的短時(shí)過零率進(jìn)行拼接,得到第一張量;
將所述頻域特征中基于小波變換的梅爾頻率倒譜系數(shù)特征與所述時(shí)域特征中的短時(shí)能量進(jìn)行拼接,得到第二張量;
將所述第一張量和所述第二張量進(jìn)行拼接,得到融合后的音頻時(shí)頻域特征。
5.根據(jù)權(quán)利要求4所述的一種基于音視頻耦合的鳴笛車輛定位方法,其特征在于,所述根據(jù)所述時(shí)域特征和所述頻域特征識別得到鳴笛聲的音頻片段,包括:
通過修改ResNet50網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)和網(wǎng)絡(luò)結(jié)構(gòu),構(gòu)建目標(biāo)深度神經(jīng)網(wǎng)絡(luò);其中,所述網(wǎng)絡(luò)參數(shù)包括輸入尺寸、中間層數(shù)量或輸出尺寸;所述目標(biāo)深度神經(jīng)網(wǎng)絡(luò)的輸入尺寸與所述音頻時(shí)頻域特征的尺寸適配;
將音頻分成多個(gè)子片段,將每個(gè)子片段輸入所述目標(biāo)深度神經(jīng)網(wǎng)絡(luò),得到各個(gè)子片段被判斷為鳴笛聲的判定概率;
根據(jù)所述判定概率確定鳴笛聲出現(xiàn)的時(shí)間。
6.根據(jù)權(quán)利要求1所述的一種基于音視頻耦合的鳴笛車輛定位方法,其特征在于,所述根據(jù)所述鳴笛聲的音頻片段確定鳴笛的聲源方向,包括:
獲取線性麥克風(fēng)陣列的各個(gè)麥克風(fēng)之間的距離參數(shù)以及實(shí)時(shí)環(huán)境聲速;
采用基于二次相關(guān)的時(shí)延估計(jì)方法計(jì)算得到聲音傳播的時(shí)延信息;
根據(jù)所述距離參數(shù)、所述實(shí)時(shí)環(huán)境聲速以及所述時(shí)延信息,計(jì)算所述聲源方向的估計(jì)結(jié)果;
采用可控波束形成算法對所述聲源方向的估計(jì)結(jié)果進(jìn)行范圍掃描,得到目標(biāo)聲源方向。
7.根據(jù)權(quán)利要求6所述的一種基于音視頻耦合的鳴笛車輛定位方法,其特征在于,所述采用基于二次相關(guān)的時(shí)延估計(jì)方法計(jì)算得到聲音傳播的時(shí)延信息,包括:
對采集到的第一源信號和第二源信號進(jìn)行相關(guān)性處理,得到自相關(guān)序列和互相關(guān)序列;
將所述自相關(guān)序列和所述互相關(guān)序列視為關(guān)于時(shí)間的序列,對所述自相關(guān)序列和所述互相關(guān)序列再次進(jìn)行互相關(guān)處理,得到二次相關(guān)結(jié)果;
對所述二次相關(guān)結(jié)果進(jìn)行廣義加權(quán)處理,得到功率譜,并對所述功率譜進(jìn)行反傅里葉變換處理后,找到所述二次相關(guān)結(jié)果中最大值對應(yīng)的時(shí)間點(diǎn),確定為聲音傳播的時(shí)延估計(jì)結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中山大學(xué),未經(jīng)中山大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211445647.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類





