[發明專利]一種視頻處理方法及裝置在審
| 申請號: | 202010108662.6 | 申請日: | 2020-02-21 |
| 公開(公告)號: | CN111343496A | 公開(公告)日: | 2020-06-26 |
| 發明(設計)人: | 張寧靜 | 申請(專利權)人: | 北京字節跳動網絡技術有限公司 |
| 主分類號: | H04N21/439 | 分類號: | H04N21/439;H04N21/44;H04N21/4402;H04N21/845;G10L15/22;G10L15/26;G06F16/783 |
| 代理公司: | 北京中知法苑知識產權代理有限公司 11226 | 代理人: | 李明;趙吉陽 |
| 地址: | 100041 北京市石景山區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 視頻 處理 方法 裝置 | ||
本公開提供了一種視頻處理方法及裝置,包括:提取待處理視頻的待處理信息,所述待處理信息包括所述待處理視頻的音頻信息和/或圖片信息;基于所述待處理信息,確定所述待處理視頻中的關鍵視頻幀,并識別所述待處理信息對應的目標文本信息;基于所述關鍵視頻幀、以及所述目標文本信息,生成所述待處理視頻對應的圖文圖片。
技術領域
本公開涉及計算機技術領域,具體而言,涉及一種視頻處理方法及裝置。
背景技術
隨著互聯網技術的發展,越來越多的用戶選擇拍攝小視頻的方式來分享自己的生活,例如拍攝各種做飯視頻教程等。其他用戶在觀看這些視頻時,由于視頻所包含的信息量可能較多,其他用戶通過一次觀看可能無法獲取到視頻中所有的信息,因此需要對視頻進行反復觀看,而在反復觀看的過程中,由于用戶并不知道所需要的信息在視頻中的位置,因此只能通過不斷調整視頻進度條的方式,來查找所需要的信息,進而導致視頻播放資源的浪費,也耽誤了用戶的時間。
發明內容
本公開實施例至少提供一種視頻處理方法及裝置。
第一方面,本公開實施例提供了一種視頻處理方法,包括:
待處理視頻的待處理信息,所述待處理信息包括所述待處理視頻的音頻信息和/或圖片信息;
基于所述待處理信息,確定所述待處理視頻中的關鍵視頻幀,并識別所述待處理信息對應的目標文本信息;
基于所述關鍵視頻幀、以及所述目標文本信息,生成所述待處理視頻對應的圖文圖片。
一種可能的實施方式中,當所述待處理信息包括所述音頻信息時,所述識別所述待處理信息對應的目標文本信息,包括:
基于語音識別技術,確定所述音頻信息對應的第一文本信息中各個文本單元的置信度;
基于所述各個文本單元的置信度,對所述第一文本信息中的各個文本單元進行篩選,得到所述目標文本信息。
一種可能的實施方式中,當所述待處理信息包括所述圖片信息時,所述識別所述待處理信息對應的目標文本信息,包括:
基于光學字符識別技術,確定所述圖片信息對應的第二文本信息中各個文本單元的置信度;
基于所述各個文本單元的置信度,對所述第二文本信息中的各個文本單元進行篩選,得到所述目標文本信息。
一種可能的實施方式中,若所述待處理信息包括音頻信息和圖片信息,所述識別所述待處理信息對應的目標文本信息,包括:
針對任一關鍵視頻幀,若該關鍵視頻幀包括所述音頻信息和所述圖片信息,則將所述關鍵視頻幀中的音頻信息對應的識別出的第一文本信息和該關鍵視頻幀中的圖片信息對應的識別出的第二文本信息進行相互驗證,確定該關鍵視頻幀對應的目標文本信息;或者,
若該關鍵視頻幀包括所述音頻信息和所述圖片信息中的一種,則將該關鍵視頻幀中所包括的所述音頻信息或所述圖片信息對應的識別出的文本信息,作為該關鍵視頻幀對應的目標文本信息。
一種可能的實施方式中,所述基于所述待處理信息,確定所述待處理視頻中的關鍵視頻幀,包括:
將所述待處理視頻中包括至少一種所述待處理信息的視頻幀確定為所述關鍵視頻幀。
一種可能的實施方式中,所述基于所述關鍵視頻幀、以及所述目標文本信息,生成所述待處理視頻對應的圖文圖片,包括:
確定不同的所述關鍵視頻幀之間的相似度;
基于不同關鍵視頻幀之間的所述相似度和各個所述關鍵視頻幀的清晰度對所述關鍵視頻幀進行篩選,得到選定視頻幀;
基于所述選定視頻幀、以及所述目標文本信息,生成所述待處理視頻對應的圖文圖片。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京字節跳動網絡技術有限公司,未經北京字節跳動網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010108662.6/2.html,轉載請聲明來源鉆瓜專利網。





