[發明專利]一種融合人像和語音的屏幕視頻生成方法在審
| 申請號: | 201410337865.7 | 申請日: | 2014-07-16 |
| 公開(公告)號: | CN104092957A | 公開(公告)日: | 2014-10-08 |
| 發明(設計)人: | 陸成剛;洪榛;田茂利;杜煥強;俞珊珊;黃蒙 | 申請(專利權)人: | 浙江航天長峰科技發展有限公司 |
| 主分類號: | H04N5/265 | 分類號: | H04N5/265;G06F9/46 |
| 代理公司: | 紹興市越興專利事務所 33220 | 代理人: | 蔣衛東 |
| 地址: | 312000 浙江省紹*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 融合 人像 語音 屏幕 視頻 生成 方法 | ||
技術領域
本發明涉及一種融合人像和語音的屏幕視頻生成方法,屬于計算機多媒體技術領域。
背景技術
當前國內外屏幕截取軟件應用比較普遍,主要使用在教育教學、或用于電腦的屏幕監控上。有名的軟件或系統有EZvid、BlueBerry、Screenr和CamStudio,以及屏幕錄像專家、網絡監控軟件“第三只眼”等等。這些軟件都能將計算機屏幕動態圖像錄制為視頻文件,同時包含同步錄制的環境聲音。無論是錄制教學錄像、還是作為監控使用,現有的軟件或系統都存在一種不足:就是缺少電腦用戶的人像錄制、以及將錄制的人像編輯進入屏幕視頻文件中。而這個實際上是一個很重要的功能,這是因為無論是教學還是監控,當電腦用戶說話的聲音錄入后,通常由于環境噪聲不一定較小,所以辨聽用戶的語音有時會有困難。這時候如果有人臉說話表情的錄入就會起到幫助理解的作用。而現在由于筆記本電腦、上網本、平板電腦、以及智能手機的使用的普遍性,為實現這樣的融入人像的屏幕視頻提供了可能。眾所周知這類設備的顯示屏上方均配有攝像頭,它可以供在錄制屏幕的同時抓取用戶的人臉。
有鑒于此,本發明人對此進行研究,專門開發出一種融合人像和語音的屏幕視頻生成方法,本案由此產生。
發明內容
本發明的目的是提供一種融合人像和語音的屏幕視頻生成方法,在音視頻同步的基礎上,再通過攝像頭抓取用戶的人像,進而將用戶的人臉(即表情)與語音相結合,給視頻觀看者更直觀的體驗,提高對屏幕視頻內容的理解。
為了實現上述目的,本發明的解決方案是:
一種融合人像和語音的屏幕視頻生成方法,包括如下步驟:
1)開啟圖像抓取線程:按照預定幀率時間間隔捕獲屏幕圖像,然后通過視頻編解碼庫進行編碼,最后把視頻碼流存入視頻文件;
2)在開啟圖像抓取線程的同時啟動一個錄音線程:抓取音頻數據,然后通過音頻編解碼庫進行編碼,最后把音頻碼流寫入視頻文件;
3)音視頻同步以音頻為基準,錄音線程每向視頻文件寫入一塊音頻數據的碼流時,根據音頻采樣頻率以及音頻數據塊錄音塊長度計算得到該視頻文件的絕對時間T,所述絕對時間T即為視頻文件播放時從文件開始到當前音頻數據段的累計播放時間;
4)基于視頻文件的絕對時間T,根據預設的視頻幀率參數,計算得到截止到當前時刻的圖像幀的數目a,a即為保持同步的幀數的理想值;然后從圖像抓取線程里查詢得到該線程到目前為止往視頻文件寫入的圖像幀數目b,倘若a<b,則表示目前寫入文件的圖像幀過多,應在圖像抓取線程中暫停往視頻文件里寫一次圖像;倘若a≥b,則圖像抓取線程正常執行往視頻文中件寫入一幀圖像碼流,實現音頻和視頻的同步,步驟3)和4)所述的處理過程伴隨圖像抓取線程和錄音線程這兩個線程的生命期全程。
5)啟動人臉抓取線程:開啟攝像頭并捕獲屏幕正前方的環境圖像,對該圖像調用人臉檢測函數得到用戶人臉的包圍盒,提取出包圍盒內的人臉圖像數據;
6)確定步驟5)提取的人臉圖像加入到屏幕圖像的具體位置,通過替換法或者疊加法將人臉圖像數據加入到當前幀屏幕圖像中,生成融合了人像和語音的屏幕視頻。
上述步驟3)所述的絕對時間T(秒)是通過音頻采集來計算的:
T=BlkNum*BlkLen/SR
其中,BlkLen是每一次抓取的錄音數據塊的長度(即樣本數),是系統設計時預先定義的,BlkNum是迄今為止抓取錄音數據塊的次數(即音頻線程被調用的次數),SR是音頻采樣率(即樣本數/秒),也是系統設計時預定義的。
上述步驟4)所述的圖像幀的數目a=T/fps,
其中,fps是幀率(frames?per?second),是系統預設參數。
作為優選,為了避免人臉對屏幕的長時間遮擋,也為了免除不說話狀態下的人臉表情對理解屏幕的無助性,步驟5)人臉抓取的時機應該選擇在有語音活動的時段,這個機制稱為語音驅動的人臉檢測,在步驟2)開啟錄音線程后,需同時啟動語音活動檢測(Voice?Activity?Detection,語音活動檢測,簡稱VAD),具體過程為:通過語音活動檢測對錄音線程中的錄音進行檢查,當檢測到有語音時,則先向人臉抓取線程發出人臉抓取通知,再進行音頻編碼,如果沒有檢測到有語音,則直接進行音頻編碼。
作為優選,上述步驟6)通過固定位置法確定人臉圖像加入到屏幕圖像的具體位置,選用屏幕的左上、右上、左下、右下四個位置中的其中一個地方加入人臉圖像。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江航天長峰科技發展有限公司,未經浙江航天長峰科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410337865.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種電視換臺控制方法及系統
- 下一篇:處理圖像的方法及裝置





