[發明專利]一種基于transformer的假視頻檢測方法有效
| 申請號: | 202111267422.1 | 申請日: | 2021-10-29 |
| 公開(公告)號: | CN113837147B | 公開(公告)日: | 2022-08-05 |
| 發明(設計)人: | 王英龍;張亞寧;舒明雷;陳達;劉麗;孔祥龍 | 申請(專利權)人: | 山東省人工智能研究院;齊魯工業大學 |
| 主分類號: | G06V20/40 | 分類號: | G06V20/40;G06V40/16;G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 濟南泉城專利商標事務所 37218 | 代理人: | 支文彬 |
| 地址: | 250013 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 transformer 視頻 檢測 方法 | ||
1.一種基于transformer的假視頻檢測方法,其特征在于,包括如下步驟:
a)利用讀視頻算法對K個視頻中的每個視頻提取連續的視頻幀,利用臉識別算法提取每個視頻的連續的視頻幀中的人臉圖像;
b)對人臉圖像進行預處理,利用特征提取模塊得到人臉的局部特征;
c)將特征提取模塊提取的人臉的局部特征輸入空間視覺transformer模型中,得到該視頻幀的人臉圖像的全局空間特征;
d)將步驟c)得到的人臉圖像的全局空間特征輸入時間視覺transformer模型中,得到該視頻幀的人臉的全局時間空間特征;
e)將步驟d)得到的人臉的全局時間空間特征輸入分類器經過softmax進行二分類真假檢測;
步驟a)中利用python中的讀視頻算法VideoReader類對視頻提取,得到連續的t個視頻幀,對提取的視頻幀利用人臉識別算法dlib庫中的get_frontal_face_detector函數提取臉圖像,將得到的臉放入該視頻文件夾下,在該視頻文件夾下得到連續幀的t張人臉圖像;
步驟a)中得到的連續幀的t張人臉圖像的寬高分別調整為224、224,利用均值為[0.4718,0.3467,0.3154],方差為[0.1656,0.1432,0.1364]對人臉圖像進行歸一化,將歸一化后的連續幀的t張人臉圖像封裝為[b,t,c,h,w]的張量xi∈Rb×t×c×h×w,R為向量空間,其中視頻標簽為[b,0/1],xi為第i個視頻批次,i∈{1,...,K/b},b為每批次視頻的個數,c為每張人臉圖像通道數,h為每張人臉圖像的高,w為每張人臉圖像的寬,0表示假視頻,1表示真視頻;
步驟b)包括如下步驟:
b-1)建立由五個連續的塊組成特征提取模塊,第一個塊、第二個塊、第三個塊均由三個連續的卷積層和一個最大池化層構成,第三個塊和第四個塊均由四個連續的卷積層和一個最大池化層構成,每個卷積層均設置有3×3的kernel,每個卷積層的stride和padding為1,每個最大池化層均有一個2×2像素的窗口,每個最大池化層的步長等于2,第一個塊的第一個卷積層有32個通道,第五個塊的第四個卷積層有512個通道;
b-2)將xi∈Rb×t×c×h×w維度變換為[b*t,c,h,w]后輸入特征提取模塊,輸出維度為[b*t,512,7,7]的特征圖xf=F(xi,θ),xf∈R(b*t)×c×h×w,θ為模型參數;步驟c)的步驟為:
c-1)將特征圖xf∈R(b*t)×c×h×w沿著通道利用torch庫里的reshape函數拉平為二維圖像塊序列xp∈R(b*t)×N×(p*q·c),其中p為二維圖像塊的寬度,q為二維圖像塊的高度,N為patch的數量,N=hw/p*q;
c-2)通過公式計算得到帶有位置信息的二維圖像塊序列z0,式中為第i個二維圖像塊,i∈{1,...,N},N為二維圖像塊序列中二維圖像塊的總數,xclass為類embedding,E為每一個圖像塊的位置embedding,E∈R(p*q·c)×D,D為不變的隱向量,Epos為位置embedding,Epos∈R(N+1)×D;
c-3)設置由L個連續的transformer block組成的空間視覺transformer模型,每個transformer block由多頭自注意力block和MLP block組成,多頭自注意力block之前為LayerNorm層,多頭自注意力block之后為殘差層,MLP block之前為LayerNorm層,MLPblock之后為殘差層;
c-4)將z0輸入第l-1層的transformer block得到帶有全局空間信息的二維圖像塊序列zl-1,l∈{1,...,L},將zl-1進行歸一化后送入第l層的多頭自注意力block進行全局多頭注意力計算,得到計算結果MSA(LN(zl-1)),通過公式z′l=MSA(LN(zl-1))+zl-1計算得到二維全局空間特征z′l,將z′l進行層歸一化后送入第l層的MLP block中得到二維空間特征圖MLP(LN(z′l)),通過公式zl=MLP(LN(z′l))+z′l計算得到第l層的二維空間特征圖zl,將zl輸入到第L個transformer block中得到歸一化后的視頻的人臉圖像的全局空間特征z′L∈R(b*t)×1×D;
步驟d)包括如下步驟:
d-1)將視頻的人臉圖像的全局空間特征z′L∈R(b*t)×1×D利用torch庫里的reshape函數將其維度變換為z′L∈Rb×t×D;
d-2)通過公式計算得到帶有位置信息的視頻幀序列s0,式中為第j個視頻,j∈{1,...,M},M為視頻幀序列中幀總數,zclass為視頻類embedding,U為每一個視頻幀的位置embedding,U∈RD×F,F為視頻幀隱向量的維度,Upos為位置embedding,Upos∈R(M+1)×F;
d-3)設置由L個連續的transformer block組成的時間視覺transformer模型,每個transformer block由多頭自注意力block和MLP block組成,多頭自注意力block之前為LayerNorm層,多頭自注意力block之后為殘差層,MLP block之前為LayerNorm層,MLPblock之后為殘差層;
d-4)將帶有位置信息的視頻幀序列s0輸入第l-1層的transformer block得到帶有全局時間信息的視頻幀序列sl-1,l∈{1,...,L},將sl-1進行歸一化后送入第l層的多頭自注意力block進行全局多頭注意力計算,得到計算結果MSA(LN(sl-1)),通過公式s′l=MSA(LN(sl-1))+sl-1計算得到視頻全局時間特征s′l,將s′l進行層歸一化后送入第l層的MLP block中得到視頻全局時間特征MLP(LN(s′l)),通過公式sl=MLP(LN(s′l))+s′l計算得到第l層的視頻全局時間特征sl,將sl輸入到第L個transformer block中得到歸一化后的視頻全局空間時間特征表示s′L∈Rb×1×F,利用torch庫里的reshape函數將s′L維度變換為s′L∈Rb×F。
2.根據權利要求1所述的基于transformer的假視頻檢測方法,其特征在于,步驟e)中將視頻的全局時間空間特征s′L∈Rb×F輸入分類器模塊的第一個輸入維度為F輸出維度為2*F的線性層后得到輸出結果y,將y輸入到分類器模塊的第二個輸入維度為2*F輸出維度為m的線性層后得到模型預測視頻類別表示y′=s′LWc,Wc∈RF×m,y′∈Rb×m,Wc為分類器參數,將模型預測視頻類別表示y′=s′LWc經過softmax函數轉換為概率值,對y′每行元素取最大值索引,索引對應模型預測類別0或1,當模型預測類別為0則該視頻為假視頻,當模型預測類別為1則該視頻為真視頻。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東省人工智能研究院;齊魯工業大學,未經山東省人工智能研究院;齊魯工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111267422.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種電鍍鋅及氫氣還原氣氛下熱處理涂層的方法
- 下一篇:端子模具
- 基于Transformer+LSTM神經網絡模型的商品銷量預測方法及裝置
- 一種基于Transformer模型自然場景文字識別方法
- 一種深度Transformer級聯神經網絡模型壓縮算法
- 點云分割方法、系統、介質、計算機設備、終端及應用
- 基于Transformer的中文智能對話方法
- 一種基于改進Transformer模型的飛行器故障診斷方法和系統
- 一種基于Transformer模型的機器翻譯模型優化方法
- 基于Transformer和增強交互型MPNN神經網絡的小分子表示學習方法
- 基于U-Transformer多層次特征重構的異常檢測方法及系統
- 基于EfficientDet和Transformer的航空圖像中的飛機檢測方法





