[發明專利]基于語音識別的字幕同步裝置和方法有效
| 申請號: | 201310069142.9 | 申請日: | 2013-03-05 |
| 公開(公告)號: | CN104038804B | 公開(公告)日: | 2017-09-29 |
| 發明(設計)人: | 徐明;范煒;譚皓 | 申請(專利權)人: | 三星電子(中國)研發中心;三星電子株式會社 |
| 主分類號: | H04N21/431 | 分類號: | H04N21/431;H04N21/435;H04N21/472;G10L15/01 |
| 代理公司: | 北京銘碩知識產權代理有限公司11286 | 代理人: | 韓明星,羅延紅 |
| 地址: | 210061 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 語音 識別 字幕 同步 裝置 方法 | ||
技術領域
本發明涉及語音識別和字幕同步技術領域。更具體地講,涉及一種利用語音識別在播放電視節目的時候自動同步與視頻對應的字幕的裝置和方法。
背景技術
目前,數字電視信號流中對于字幕語言數目的支持有限,不能同時滿足不同人群的需求。尤其是在酒店旅館這樣的場所,會有很多不同語言國家的人入住,這些人群在觀看數字電視字幕的時候就有其特殊的需要。因此,在播放數字電視視頻時存在顯示附加的多國語言字幕的需求。同時,由于電視節目中可能會插播廣告和緊急通知之類的信息,附加的多國字幕顯示需要廣告類信息跳轉功能,始終與音視頻保持同步。
發明內容
本發明通過利用語音識別技術提出了電視節目中存在插播廣告時同步顯示附加字幕的方案。通過附加語言字幕,采用動態語音采樣,合理獲得有效音頻信息,對附加字幕文進行匹配并調整的顯示時間戳,使得附加字幕文能對數字電視節目中存在插播等現象進行有效的調整,保持附加字幕的同步顯示。
根據本發明的一方面,提供了一種基于語音識別的字幕同步裝置,包括:語音識別模塊,從與播放視頻對應的音頻流提取前景聲音中的語音,并對提取的語音進行采樣和識別,從而生成與識別的語音對應的文字信息;動態采樣調整模塊,對語音識別模塊生成的文字信息進行語義識別度的評價,并且根據評價的結果來控制語音識別模塊調整采樣頻率以獲得具有高語義識別度的文字信息;字幕語義對比模塊,將具有高語義識別度的文字信息與播放視頻的附加多國語言字幕的文字進行語義匹配;字幕同步模塊,如果字幕語義對比模塊在字幕文件中找到與識別的語音的文字信息對應的句子,則根據語音的時間信息來調整字幕文件的時間信息;字幕顯示模塊,根據字幕同步模塊調整后的字幕文件的時間信息來顯示字幕。
根據本發明的一方面,所述字幕同步裝置還包括:語言選擇模塊,根據用戶的選擇來確定將要顯示的字幕的語言。
根據本發明的一方面,當動態采樣調整模塊確定語音識別模塊生成的文字信息中的語音單詞的個數在預定范圍[m,n]內時,動態采樣調整模塊確定文字信息具有高語義識別度,其中m、n是自然數。
根據本發明的一方面,如果動態采樣調整模塊確定語音識別模塊生成的文字信息中的語音單詞的數量低于最小數量m,則動態采樣調整模塊控制語音識別模塊提高采樣頻率來對語音進行采樣;如果動態采樣調整模塊確定語音識別模塊生成的文字信息中的語音單詞的數量高于最大數量n,則動態采樣調整模塊控制語音識別模塊降低采樣頻率來對語音進行采樣。
根據本發明的一方面,動態采樣調整模塊考慮語音識別模塊生成的文字信息中的語音單詞的語義意義來評價文字信息的語義識別度。
根據本發明的一方面,字幕語義對比模塊采用模糊算法采用模糊算法對播放視頻的附加多國語言字幕的文字進行字符評分,從而找出字幕文件中得分最高的句子作為與文字信息匹配的句子。
根據本發明的一方面,如果字幕語義匹配模塊沒有在字幕文件中找到與識別的語音的文字信息對應的句子,則通知動態采樣調整模塊提高語音識別模塊的采樣頻率。
根據本發明的另一方面,提供了一種基于語音識別的字幕同步方法,包括:(a)從與播放視頻對應的音頻流提取前景聲音中的語音,并對提取的語音進行采樣和識別,從而生成與識別的語音對應的文字信息;(b)對生成的文字信息進行語義識別度的評價,并且根據評價的結果來控制語音識別模塊調整采樣頻率以獲得具有高語義識別度的文字信息;(c)將具有高語義識別度的文字信息與播放視頻的附加多國語言字幕的文字進行語義匹配,以在字幕文件中找到與識別的語音的文字信息對應的句子;(d)根據語音的時間信息來調整字幕文件的時間信息;(e)根據調整后的字幕文件的時間信息來顯示字幕。
根據本發明的另一方面,所述字幕同步方法還包括:根據用戶的選擇來確定將要顯示的字幕的語言。
根據本發明的另一方面,在步驟(b),當確定步驟(a)生成的文字信息中的語音單詞的個數在預定范圍[m,n]內時,確定文字信息具有高語義識別度,其中m、n是自然數。
根據本發明的另一方面,在步驟(b),如果確定步驟(a)生成的文字信息中的語音單詞的數量低于最小數量m,則返回步驟(a)并提高采樣頻率來對語音進行采樣;如果確定步驟(a)生成的文字信息中的語音單詞的數量高于最大數量n,則返回步驟(a)降低采樣頻率來對語音進行采樣。
根據本發明的另一方面,在步驟(b),考慮步驟(a)生成的文字信息中的語音單詞的語義意義來評價文字信息的語義識別度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于三星電子(中國)研發中心;三星電子株式會社,未經三星電子(中國)研發中心;三星電子株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310069142.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種供熱管網系統智能流量調節控制器
- 下一篇:水龍頭





