[發明專利]一種基于多距離聲傳感器的音頻索引方法有效
| 申請號: | 201110303580.8 | 申請日: | 2011-10-09 |
| 公開(公告)號: | CN102509548A | 公開(公告)日: | 2012-06-20 |
| 發明(設計)人: | 楊毅;陳國順;王勝開 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G10L15/08 | 分類號: | G10L15/08 |
| 代理公司: | 西安智大知識產權代理事務所 61215 | 代理人: | 賈玉健 |
| 地址: | 100084 北京市海淀區1*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 距離 傳感器 音頻 索引 方法 | ||
技術領域
本發明屬于音頻技術領域,涉及音頻索引,具體涉及一種基于多距離聲傳感器的音頻索引方法。
背景技術
電話會議和視頻會議日益深入商業活動和日常生活,與之對應的記錄數據呈現幾何級增長,在此類場景中通常在一段音頻數據中存在多個聲源。通過音頻索引技術可以處理這類數據,減輕如語音識別等后處理方法的負擔。
音頻索引技術從音頻數據中自動提取信息進行搜索并發現目標內容,說話人分類是音頻索引的關鍵技術,說話人分類技術包括三個部分:特征提取、語音分段、分類決策。主要的算法為混合高斯對數似然比或支持向量機。前者采用通用性訓練(如最大似然或MAP估計)產生說話人模型,后者采用區分性訓練(如GLDS-SVM和bag?of?N-grams)產生說話人模型。GMM-SVM(高斯混合模型-支持向量機)是一種主流的建模及分類方法,通過GMM建立概率密度分布模型并通過Kullback-Leibler散度上界來測量概率密度分布。GMM-SVM方法擁有較佳的性能,但仍存在以下問題:估計概率密度時GMM存在過多參數、訓練數據有限、GMM-SVM主要針對說話人識別而未發展成為通用技術。
說話人分類標記(Speech?Diarization)評測于2005年首次進入美國國家標準局(National?Institute?of?Standards?and?Technology)的福標注(Rich?Transcription?Evaluation)評測。說話人自動分段標記的目的是解決將聲音數據分成片段按說話人來分類的問題。2009年福標注評測條件為:話者個數未知、麥克風位置未知、房間聲學環境未知,即在時間和空間先驗信息均缺失的場景下判斷多個說話人的身份并對聲音數據按說話人身份進行分類。SPKR評測是說話人分類標記評測中的一個重要子任務,主要研究“Who?spoke?when”的問題,其目的是將聲音數據分成片段并按照不同說話人來分類。說話人分類技術可應用于語音識別、音頻信息管理、檢索等領域,有助于在會議、語音郵件、講座以及新聞廣播節目的音頻流中實現說話人跟蹤,從而實現對音頻數據進行結構化的分析、理解和管理。
多距離聲傳感器系統是一種由多個傳感器組成的系統,對聲傳感器系統的結構無限制,每個聲傳感器被不同的設備控制,因此采集到的信號不同步。多距離聲傳感器系統的優勢在于結構簡單、便于使用和成本低廉,可以廣泛應用于聲源定位、音頻索引和識別。基于多距離聲傳感器結構的特殊性,可以利用多時延特征用于進行空間不重疊聲源的分類。但隨著聲傳感器個數增加,多時延特征向量維數迅速增長。
近來有文獻指出,語音信號內部具有低維流型結構,Riemann于1854年首次提出流型(Manifold)方法,2005年保局投影(Locality?Preserving?Proiections,LPP)被引入模式識別中并受到廣泛關注。LPP是一種無監督的學習方法,在學習過程中未考慮樣本的類別信息。Yu等在LPP的基礎上結合Fisher準則提出了鑒別保局投影(Discriminant?Locality?Preserving?Projections,DLPP)算法并成功地用于人臉識別。基于LPP的算法缺點降維處理會影響數據的流型分布導致鑒別信息丟失及小樣本問題等。針對小樣本問題Yang等人提出了一種零空間鑒別保局投影算法(Null-space?Locality?Preserving?Projecitons,NDLPP),但該方法僅利用了零空間的鑒別信息而忽略了主元空間中的鑒別信息。
發明內容
為了克服上述現有技術的不足,本發明的目的在于提供了一種基于多距離聲傳感器的音頻索引方法,通過利用多時延特征用于進行空間不重疊聲源的分類,并對高維多時延特征向量進行基于流型的降維處理,由該算法得到的最優判別向量集理論上可以達到最優鑒別,可應用于復雜聲學環境下的多人多方對話場景。
為了實現上述目的,本發明采用的技術方案是:
一種基于多距離聲傳感器的音頻索引方法,包括信息采集步驟、特征提取步驟以及分類決策步驟:
所述信息采集步驟通過多距離聲傳感器實現;
所述特征提取步驟是將每個獨立聲源與多距離聲傳感器對之間的多個時延組成基于空間域的多時延聲學特征,提取該空間域特征作為說話人的鑒別信息,定義到達時間差TDOA為空間特征的元素:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110303580.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:多根導線并繞用分線器
- 下一篇:一種合成液壓液





