[發明專利]基于聲譜圖及深度殘差網絡的音頻通用隱寫分析方法及系統在審
| 申請號: | 201910347996.6 | 申請日: | 2019-04-28 |
| 公開(公告)號: | CN110120228A | 公開(公告)日: | 2019-08-13 |
| 發明(設計)人: | 任延珍;柳登凱;熊翹楚;傅建明;王麗娜 | 申請(專利權)人: | 武漢大學 |
| 主分類號: | G10L25/03 | 分類號: | G10L25/03;G10L25/27;G10L19/018 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 魏波 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 隱寫分析 聲譜圖 殘差 通用的 算法 壓縮編碼標準 音頻壓縮標準 編碼標準 分布特性 分類特征 信號提取 音頻信號 音頻壓縮 原始信號 綜合考慮 網絡 通用 參數域 分析器 構建 局限 壓縮 挖掘 檢測 | ||
1.一種基于聲譜圖及深度殘差網絡的音頻通用隱寫分析方法,其特征在于,包括以下步驟:
步驟1:針對原始音頻數據,進行聲譜圖特征提取和特征預處理,獲得預處理的特征矩陣;
步驟2:對預處理的特征矩陣,送入殘差網絡S-ResNet,訓練殘差網絡S-ResNet得到多個分類特征;
步驟3:利用SVM進行分類,判斷是Cover還是Stego;其中,Cover表示載體音頻,即未進行秘密信息嵌入的音頻;Stego表示載密音頻,即進行了秘密信息嵌入的音頻。
2.根據權利要求1所述的基于聲譜圖及深度殘差網絡的音頻通用隱寫分析方法,其特征在于,步驟1中所述聲譜圖特征提取,具體實現包括以下子步驟:
(1)對音頻信號x進行分幀操作;
(2)對每一幀音頻信號加窗操作;
(3)進行快速傅里葉變換,得到音頻每一幀的頻率表達;
其中,xt(n)為當前幀的音頻信號,t為音頻幀索引;w(n)為滑動窗口函數,N表示滑動窗口的長度,采樣率為fs,則k表示頻率索引,頻率分辨率為fs/2N;
(4)通過快速傅里葉變換得到音頻每一幀的頻率表達后,對其進行取絕對值操作并轉換為對數表達,獲得聲譜圖特征矩陣SP(k,t);
SP(k,t)=20×log10|Xt(k)| (式2)。
3.根據權利要求1所述的基于聲譜圖及深度殘差網絡的音頻通用隱寫分析方法,其特征在于:步驟1中所述特征預處理,是通過幀內一階二階差分以及幀間一階二階差分固定卷積濾波器對聲譜圖特征進行預處理。
4.根據權利要求1所述的基于聲譜圖及深度殘差網絡的音頻通用隱寫分析方法,其特征在于:步驟2中所述殘差網絡S-ResNet,包括10個A類型、10個B類型、10個C類型的卷積單元,其中每隔兩個卷積單元進行一次shortcut殘差連接;在A、B類型和B、C類型卷積單元結構過渡時,由于卷積核個數增加了一倍,特征維度減小為原來的一半,因此在shortcut過程中對樣本數據進行了步長為2的池化,保證卷積操作后得到的特征圖維度一致,采用zero-padding的方式對通道數進行擴充;最后經過全局池化得到40維分類特征。
5.根據權利要求4所述的基于聲譜圖及深度殘差網絡的音頻通用隱寫分析方法,其特征在于:每個卷積單元結構均包含批量歸一化層、非線性激活函數層以及卷積層;
所述批量歸一化層,用于對每一卷積層前的輸入進行批量歸一化使其分布保持一致以加快訓練速度,對于有d維的輸入x=(x(1),...,x(k),...,x(d)),批量歸一化為均值為0方差為1的正態分布如公式(3);
其中,E[x(k)]表示期望,表示標準差;
在批量歸一化層層后,附加一個修正線性單元(Rectified Linear Unit,ReLU)作為非線性激活函數來去掉輸入信號的負數部分,ReLU的函數表達式如式(4);
f(x)=max(0,x) (式4)
所述卷積層,卷積核大小為3×3,步長為1,輸入通道數與輸出通道數一致,對應于三種類型的卷積單元,分別為10,20,40。
6.根據權利要求1所述的基于聲譜圖及深度殘差網絡的音頻通用隱寫分析方法,其特征在于,步驟3中所述利用SVM進行分類,從訓練集和測試集音頻切片中提取三種不同窗長聲譜圖通過殘差網絡獲得3個40維特征拼接成120維特征,訓練集得到的120維特征用于訓練SVM分類器,基于訓練好的SVM模型以及測試集的120維特征判斷測試集中音頻切片是否含有秘密信息。
7.一種基于聲譜圖及深度殘差網絡的音頻通用隱寫分析系統,其特征在于:包括聲譜圖特征預處理模塊、殘差網絡S-ResNet模塊、分類模塊;
所述聲譜圖特征預處理模塊,用于針對原始音頻數據,進行聲譜圖特征提取和特征預處理,獲得預處理的特征矩陣;
所述殘差網絡S-ResNet模塊,用于對預處理的特征矩陣,送入殘差網絡S-ResNet,訓練殘差網絡S-ResNet得到多個分類特征;
所述分類模塊,用于利用SVM進行分類,判斷是Cover還是Stego;其中,Cover表示載體音頻,即未進行秘密信息嵌入的音頻;Stego表示載密音頻,即進行了秘密信息嵌入的音頻。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢大學,未經武漢大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910347996.6/1.html,轉載請聲明來源鉆瓜專利網。





