[發(fā)明專利]一種實時聲學事件檢測系統及檢測方法無效

申請?zhí)枺?/td>	201110280525.1	申請日：	2011-09-21
公開（公告）號：	CN102509545A	公開（公告）日：	2012-06-20
發(fā)明（設計）人：	韓紀慶;石自強	申請（專利權）人：	哈爾濱工業(yè)大學
主分類號：	G10L15/02	分類號：	G10L15/02;G10L15/06
代理公司：	哈爾濱市松花江專利商標事務所 23109	代理人：	張宏威
地址：	150001 黑龍***	國省代碼：	黑龍江;23
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種實時聲學事件檢測系統方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發(fā)明涉及一種聲學事件檢測系統及其方法。?

背景技術

聲音無處不在，且承載著大量的信息，是人類感知和理解外部世界的重要信息渠道。隨著計算機技術、信號處理技術和多媒體技術的迅猛發(fā)展，越來越多的聲音信號被數字化處理，并以各種音頻格式存在。面對數字世界中規(guī)模越來越龐大的音頻數據流及其資源庫，人們迫切地需要能夠對音頻內容進行識別和理解的有效技術手段，從而合理地組織、管理和利用這些音頻資源，并為各種智能系統提供基于聲音的決策依據信息。?

聲學事件對應著能夠表征一個完整事件的一段連續(xù)的聲音，從人類聽覺感知的角度，它是具有一定意義的最小聲音單位，例如：鼓掌聲、笑聲、腳步聲、槍聲、爆炸聲、玻璃碎裂聲、椅子移動聲、開關門聲、狗吠聲、鳥鳴聲等。聲學事件檢測系統即致力于對這些聲學事件進行識別和有效地分類。?

聲學事件檢測系統具有廣泛的應用前景：(1)它可應用于對音頻內容的索引和檢索，是構建多媒體搜索引擎的關鍵技術之一；(2)它可以在數字圖書館、視頻網站等包含大量多媒體資源的機構中扮演重要的角色，對多媒體資源實現按內容的統計、組織和管理；(3)它可以廣泛應用于監(jiān)控領域，實現對公共場所、公共服務窗口、公共交通等環(huán)境下突發(fā)狀況的監(jiān)測；(4)它可以在無人駕駛車輛、智能家居、智能會議室等領域，提供基于聲音的感知和理解信息，輔助智能決策過程；(5)它可以應用于信息內容安全領域，用于監(jiān)測和屏蔽暴力和色情等有害信息。特定語義音頻場景檢測是音頻識別和理解以及多媒體內容感知領域關鍵性研究之一，有助于推動視聽覺信息認知計算的整體發(fā)展，從而使計算機更好地為人類服務。?

發(fā)明內容

本發(fā)明是為了解決現有的聲學事件檢測系統的實時性差的問題，從而提供一種實時聲學事件檢測系統及檢測方法。?

一種實時聲學事件檢測系統，它包括目標聲學事件識別模型、目標聲學事件識別模型訓練模塊、音頻讀取與播放模塊、音頻特征實時提取模塊、目標聲學事件識別檢測模塊、可視化模塊；?

目標聲學事件識別模型訓練模塊用于根據音頻特征實時提取模塊提取出的特征，訓練?目標聲學事件識別模型；?

音頻讀取與播放模塊，用于實時提取音頻特征并送入音頻特征實時提取模塊；還用于將音頻信號送入可視化模塊；?

音頻特征實時提取模塊用于對音頻讀取與播放模塊的音頻特征進行提取；?

目標聲學事件識別檢測模塊用于在對音頻特征實時提取模塊提取的特征的基礎上進行目標聲學事件識別模型實時事件檢測；并將實時檢測結果送入可視化模塊；?

可視化模塊用于顯示音頻讀取與播放模塊的音頻的實時波形，還用于顯示目標聲學事件識別檢測模塊的實時檢測結果。?

音頻讀取與播放模塊包括：音頻讀取模塊、音頻信息提取模塊和音頻播放模塊，?

音頻讀取模塊用于讀取用戶指定音頻，記錄音頻原始信息，并存儲音頻信號，然后對音頻信號進行預處理后送入音頻特征實時提取模塊；?

音頻信息提取模塊用于以幀為單位實時提取音頻特征，并對提取特征進行歸正，將送入音頻特征實時提取模塊；?

音頻播放模塊用于對用戶指定音頻進行播放、暫停、停止或快進操作。?