[發明專利]一種字幕位置調整的方法、裝置、存儲介質及電子設備有效
| 申請號: | 201810102767.3 | 申請日: | 2018-02-01 |
| 公開(公告)號: | CN108419141B | 公開(公告)日: | 2020-12-22 |
| 發明(設計)人: | 李碩 | 申請(專利權)人: | 廣州視源電子科技股份有限公司 |
| 主分類號: | H04N21/488 | 分類號: | H04N21/488;H04N21/431;H04N21/44;H04N21/4415;G06K9/00 |
| 代理公司: | 北京博思佳知識產權代理有限公司 11415 | 代理人: | 林祥 |
| 地址: | 510530 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 字幕 位置 調整 方法 裝置 存儲 介質 電子設備 | ||
本發明提供一種字幕位置調整的方法、裝置、存儲介質及電子設備,該方法包括步驟:獲取視頻流數據及字幕數據;對所述視頻流數據的圖像幀進行圖像識別,若識別到發聲物信息,則獲取圖像幀中發聲物的位置信息;將所述圖像幀對應字幕數據渲染至與所述位置信息關聯的位置。該方法使得觀看者容易辨別字幕與發聲物的對應關系,以此提升觀看者的用戶體驗。
技術領域
本發明涉及計算機領域,尤其涉及一種字幕位置調整的方法、裝置、存儲介質及電子設備。
背景技術
字幕(subtitles of motion picture)是指以文字形式顯示電視、電影、舞臺作品中的對話等非視頻內容。目前的字幕一般顯示在視頻圖像的特定位置,如圖像的頂部或圖像的底部,而當圖像中人物較多時,觀看者難以辨別字幕與發聲物之間的關系,如該字幕為圖像中一發聲者的說話內容,觀看者可能會誤以為該字幕為該圖像中其他人物的說話內容,如此導致觀看者的用戶體驗不佳。尤其對于屏幕尺寸較大的顯示設備,以及無法獲得音頻信息的聽力障礙人士,字幕與發聲物的對應關系的對觀看體驗的影響顯得尤為突出。
發明內容
有鑒于此,本發明提供一種字幕位置調整的方法,使得觀看者容易辨別字幕與發聲物的對應關系,以此提升觀看者的用戶體驗。
在一個實施例中,本發明是通過以下方式實現的:
一種字幕位置調整的方法,該方法包括步驟:
獲取視頻流數據及字幕數據;
對所述視頻流數據的圖像幀進行圖像識別,若識別到發聲物信息,則獲取圖像幀中發聲物的位置信息;
將所述圖像幀對應字幕數據渲染至與所述位置信息關聯的位置。
在某些例子中,對所述視頻流數據的圖像幀進行圖像識別之前,該方法包括步驟:
響應用戶指令,獲取對所述視頻流的圖像幀進行圖像識別的頻率。
在某些例子中,對所述視頻流數據的圖像幀進行圖像識別,包括步驟:
根據字幕數據的時間戳信息,獲取所述時間戳信息對應的圖像幀進行圖像識別。
在某些例子中,該方法還包括步驟:獲取發聲物的尺寸信息,根據發聲物的尺寸信息確定字幕數據的字體尺寸。
在某些例子中,將所述圖像幀對應字幕數據渲染至與所述位置信息關聯的位置之后,該方法還包括步驟:將所述圖像幀與對應字幕數據合成目標圖像幀。
在某些例子中,所述圖像識別包括步驟:
對所述視頻流的圖像幀進行面部識別,獲取圖像幀中面部的數量;
若面部的數量大于1,對所述視頻流的圖像幀進行嘴巴識別,獲取圖像幀中嘴巴的數量;
若嘴巴的數量大于或等于1,則獲取所述圖像幀的相鄰幾幀圖像幀,通過對比相鄰至少兩幀圖像幀中嘴巴的變化,判斷是否存在發聲物信息。
在某些例子中,所述位置信息包括以下任一:面部的位置信息、嘴巴的位置信息、身體的位置信息;
所述字幕數據的位置包括:位置信息的周圍、位置信息的正下方、位置信息的正上方。
在某些例子中,所述字幕數據包括文字及背景,所述文字與所述背景的顏色不同。
一種字幕位置調整裝置,包括:
處理模塊:用于獲取視頻流數據及字幕數據;對所述視頻流數據的圖像幀進行圖像識別,若檢測到發聲物信息,則獲取圖像幀中發聲物的位置信息;
渲染模塊:將所述圖像幀對應字幕數據渲染至所述位置信息關聯的位置。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州視源電子科技股份有限公司,未經廣州視源電子科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810102767.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:直播互動方法、裝置、服務器、終端和存儲介質
- 下一篇:VR視頻播放方法及裝置





