[發明專利]一種分析和提取設定場景的音頻數據的方法無效
| 申請號: | 200910077312.1 | 申請日: | 2009-02-17 |
| 公開(公告)號: | CN101477798A | 公開(公告)日: | 2009-07-08 |
| 發明(設計)人: | 李祺;馬華東 | 申請(專利權)人: | 北京郵電大學 |
| 主分類號: | G10L15/08 | 分類號: | G10L15/08;G10L15/14;G10L13/08;G06F17/30 |
| 代理公司: | 北京德琦知識產權代理有限公司 | 代理人: | 夏憲富 |
| 地址: | 100876*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 分析 提取 設定 場景 音頻 數據 方法 | ||
1.一種分析和提取設定場景的音頻數據的方法,其特征在于,所述方法包括下述操作步驟:
(1)利用隱馬爾科夫模型對音頻文件中的音頻數據進行基本音頻事件的檢測,得到基本音頻事件序列,以獲取該音頻文件的低層語義分析結果;
(2)對該音頻文件的基本音頻事件序列進行分割,獲得多個音頻場景片斷;
(3)采用基于機器學習和邏輯推理的兩者優點相互結合的高層語義提取方法:先用訓練方式提取出基本音頻事件在某一特定語義場景中的重要程度的權重值,再根據邏輯推理規則對該權重值進行修正后,分析所述多個音頻場景片斷,獲取該音頻文件的高層語義分析結果;該步驟進一步包括下列操作內容:
(31)將基本音頻事件序列劃分為設定時長的語義幀,形成一個語義幀序列;
(32)根據測試樣本,利用神經網絡對該語義幀序列進行訓練后,得到基本音頻事件與各個音頻場景之間相互關聯的權重值;
(33)根據先驗知識,對所述訓練得到的權重值進行修改:如果基本音頻事件在某個特定場景中起著關鍵作用時,則增加該訓練得到的權重值,并相應減少該特定場景中的其它基本音頻事件的權重值;如果確定某個基本音頻事件與某個特定場景無關或作用小時,則減小該訓練得到的權重值;且在調整權值后,要保證所有的權重值都是非負數;
(34)在所述音頻文件中得到的由k個基本音頻事件所組成的基本音頻事件序列Pk中,根據該序列中的每種基本音頻事件出現的頻率得到一組向量:W1,W2,...,Wk,式中,自然數下標p是k個基本音頻事件的序號,Wp的數值越大,表示該基本音頻事件Wp在該基本音頻事件序列Pk中出現的頻率越高;
(35)利用神經網絡和下述公式分別計算所述音頻文件中每種音頻場景的出現的次數Y,其中,第q個音頻場景的出現次數為:式中,wpq表示基本音頻事件p在某個場景q中的權重值,Wp是基本音頻事件Wp在該基本音頻事件序列Pk中出現的次數;
(36)選擇出現次數最多的音頻場景,用于對所述音頻文件中得到的基本音頻事件序列Pk進行分類;并將該基本音頻事件序列Pk標記為該出現次數最多的音頻場景,從而完成該音頻文件的高層語義分析結果。
2.根據權利要求1所述的方法,其特征在于:所述步驟(1)進一步包括下列操作內容:
(11)輸入音頻文件,將其中的音頻采樣數據序列按照設定的時長進行分幀處理,將該音頻采樣數據序列劃分為一個音頻數據幀序列;
(12)按照下述計算公式分別對每幀音頻數據提取該幀音頻數據的兩個時域特征參數:短時能量和短時過零率;其中,每個音頻數據幀的短時能量是該幀內所有音頻采樣值的平方和,即第i幀的短時能量是:而第i幀的短時過零率是在該幀中的音頻信號穿過零值、即坐標橫軸的次數:上述兩式中,自然數n是該第i幀中的音頻采樣值的序號,其最大值是N,Sn是第n個采樣的取樣值,sgn()為符號函數,音頻采樣值Sn為正數的符號函數是1,音頻采樣值Sn為負數和0的符號函數都是-1,即:
(13)根據人耳反應和人類心理反應的原理,采用無限逼近的方法,提取每幀音頻數據的8維頻域特征參數:Mel頻率倒譜系數,即MFCC參數;以便與上述短時能量和短時過零率,形成10維的特征向量;
(14)利用隱馬爾科夫模型對基本音頻事件進行建模、檢測和分類:先在訓練過程中采用Baum-Welch算法調整隱馬爾科夫模型中的各項參數,得到各個相應的模型后,再用Viterbi算法計算和檢測當前的音頻片斷與每一種模型的相似程度,即最大似然值;然后,依據音頻片斷與某個模型的相似程度來對音頻事件進行分類:若當前的音頻片斷的最大似然值取得最大值且大于設定門限時,就將該音頻片斷判定為該基本音頻事件,從而得到一組基本音頻事件序列。
3.根據權利要求2所述的方法,其特征在于:所述步驟(11)中的設定時長范圍是10ms-50ms的短時間時長。
4.根據權利要求2所述的方法,其特征在于:所述音頻數據的短時能量是反映該音頻數據在單位時間內的強度特征參數,所述短時過零率是在某種程度上反映該音頻信號的頻率特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學,未經北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910077312.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種光控真空開關模塊
- 下一篇:一種在背景畫面上顯示疊加圖形的方法及顯示裝置





