[發(fā)明專利]一種面向人臉偽造視頻檢測的精細化特征融合方法有效
| 申請?zhí)枺?/td> | 202010736565.1 | 申請日: | 2020-07-28 |
| 公開(公告)號: | CN111967344B | 公開(公告)日: | 2023-06-20 |
| 發(fā)明(設計)人: | 夏志華;費建偉;顧飛;余佩鵬 | 申請(專利權)人: | 南京信息工程大學 |
| 主分類號: | G06V40/16 | 分類號: | G06V40/16;G06V20/40;G06V40/40;G06V10/26;G06V10/774;G06V10/764;G06V10/80;G06V10/82;G06N3/0464;G06N3/08 |
| 代理公司: | 南京經(jīng)緯專利商標代理有限公司 32200 | 代理人: | 周科技 |
| 地址: | 210032 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 偽造 視頻 檢測 精細 特征 融合 方法 | ||
1.一種面向人臉偽造視頻檢測的精細化特征融合方法,其特征在于:該方法包括如下步驟:
(1)獲取包含真假人臉視頻的數(shù)據(jù)集,對數(shù)據(jù)集中的真假人臉視頻進行幀分解,將視頻格式文件轉化為連續(xù)的圖像幀序列;
(2)對步驟(1)獲得的連續(xù)圖像幀序列進行人臉位置檢測,調整檢測結果使人臉框中包含一定面積的背景;對每一幀圖像剪裁人臉框,得到連續(xù)的人臉圖像序列數(shù)據(jù)集;
(3)將步驟(2)得到的人臉圖像序列數(shù)據(jù)集作為人臉圖像訓練集,使用該訓練集數(shù)據(jù)訓練深度卷積網(wǎng)絡EfficientNet?B0模型,方法如下:
(3.1)利用EfficientNet?B0模型在ImageNet數(shù)據(jù)集上訓練好的權重進行模型初始化;
(3.2)將EfficientNet?B0模型的最后一層神經(jīng)元的分類層剔除,對最后一層卷積層的輸出進行全局平均池化,得到特征向量,將其連接到單個以sigmoid作為激活函數(shù)的神經(jīng)元分類層;
(3.3)以小批量隨機梯度下降作為優(yōu)化器,設置動量以及批次大小,二分類交叉熵作為損失函數(shù);將剪裁后的人臉圖像訓練集重新隨機排列,在步驟(3.2)的模型上訓練;
(4)從步驟(2)得到的人臉圖像序列中隨機選取連續(xù)的N幀,依次輸入深度卷積網(wǎng)絡EfficientNet?B0模型,將網(wǎng)絡最后一個卷積層的輸出作為輸入幀的深度特征圖,對于連續(xù)的N幀人臉圖像,得到連續(xù)的N個深度特征圖構成的特征圖組;
(5)將步驟(4)中得到的特征圖組分解為獨立的特征圖,將相同通道的特征圖按照原序列順序重新堆疊得到新的特征圖組;
(6)將步驟(5)中得到的新的特征圖組輸入一個權值共享的卷積層進行二次特征提取,該卷積層輸出一個特征向量,將該特征向量連接到單個神經(jīng)元,以sigmoid為激活函數(shù)進行最終的視頻片段真假分類。
2.根據(jù)權利要求1所述的一種面向人臉偽造視頻檢測的精細化特征融合方法,其特征在于:在步驟(2)中,使用MTCNN人臉檢測器對連續(xù)圖像幀序列進行人臉位置檢測,并對檢測結果進行調整,方法如下:
(2.1)使用MTCNN逐幀地對圖像幀序列進行人臉檢測,MTCNN得到3組返回值:
1)圖像中包含人臉的概率;2)人臉矩形框位置信息,以(x,y,w,h)進行表示,其中x,y表示以圖像左上角點為原點,檢測到的人臉矩形的左上角橫縱坐標,w,h分別表示矩形框的寬和高;3)檢測到的人臉的5個關鍵點位置;
(2.2)對于步驟(2.1)中檢測到的人臉,計算人臉框中心坐標點Pcenter,公式如下:
以Pcenter為中心,以人臉框中的長邊作為參照,將人臉框擴展α倍,擴展公式如下:
α*max(w,h),α*max(w,h))其中,Rectnew表示擴展后的人臉矩形框位置信息;
(2.3)根據(jù)步驟(2.2)中擴展后的人臉矩形框信息,從連續(xù)的圖像幀序列中裁剪出包含人臉的圖像塊,得到人臉圖像序列,當MTCNN返回檢測到人臉的概率低于設定的閾值時,不對該圖像進行剪裁。
3.根據(jù)權利要求1所述的一種面向人臉偽造視頻檢測的精細化特征融合方法,其特征在于:在步驟(4)中,連續(xù)的N幀人臉圖像得到深度特征圖組的方法如下:
(4.1)對于訓練后的EfficientNet?B0模型,將其最后一層單神經(jīng)元分類層與全局平均池化層剔除,得到以人臉圖像為輸入,最后一層卷積層激活值為輸出的特征提取模型,記作M(x;W),其中x表示輸入圖像,W表示模型的權值;
(4.2)對于N幀人臉圖像序列V={I1,I2,...,IN},IN表示第N幀人臉圖像,將其輸入特征提取模型M(x;W)并得到最后一層卷積層的激活值,作為輸入人臉圖像序列的深度特征組,記作其中H,W和C分別表示每個輸入人臉圖像對應深度特征圖的高、寬與通道數(shù),F(xiàn)表示特征圖。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京信息工程大學,未經(jīng)南京信息工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010736565.1/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。





