[發(fā)明專利]基于語音識別的字幕同步裝置和方法有效
| 申請?zhí)枺?/td> | 201310069142.9 | 申請日: | 2013-03-05 |
| 公開(公告)號: | CN104038804B | 公開(公告)日: | 2017-09-29 |
| 發(fā)明(設計)人: | 徐明;范煒;譚皓 | 申請(專利權(quán))人: | 三星電子(中國)研發(fā)中心;三星電子株式會社 |
| 主分類號: | H04N21/431 | 分類號: | H04N21/431;H04N21/435;H04N21/472;G10L15/01 |
| 代理公司: | 北京銘碩知識產(chǎn)權(quán)代理有限公司11286 | 代理人: | 韓明星,羅延紅 |
| 地址: | 210061 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 語音 識別 字幕 同步 裝置 方法 | ||
1.一種基于語音識別的字幕同步裝置,包括:
語音識別模塊,從與播放視頻對應的音頻流提取前景聲音中的語音,并對提取的語音進行采樣和識別,從而生成與識別的語音對應的文字信息;
動態(tài)采樣調(diào)整模塊,通過確定語音識別模塊生成的文字信息中的語音單詞的個數(shù)是否在預定范圍內(nèi)來對語音識別模塊生成的文字信息進行語義識別度的評價,并且根據(jù)評價的結(jié)果來控制語音識別模塊調(diào)整采樣頻率以獲得具有高語義識別度的文字信息;
字幕語義對比模塊,將具有高語義識別度的文字信息與播放視頻的附加多國語言字幕的文字進行語義匹配;
字幕同步模塊,如果字幕語義對比模塊在字幕文件中找到與識別的語音的文字信息對應的句子,則根據(jù)語音的時間信息來調(diào)整字幕文件的時間信息;
字幕顯示模塊,根據(jù)字幕同步模塊調(diào)整后的字幕文件的時間信息來顯示字幕。
2.如權(quán)利要求1所述的字幕同步裝置,還包括:
語言選擇模塊,根據(jù)用戶的選擇來確定將要顯示的字幕的語言。
3.如權(quán)利要求1所述的字幕同步裝置,其中,當動態(tài)采樣調(diào)整模塊確定語音識別模塊生成的文字信息中的語音單詞的個數(shù)在預定范圍[m,n]內(nèi)時,動態(tài)采樣調(diào)整模塊確定文字信息具有高語義識別度,其中m、n是自然數(shù)。
4.如權(quán)利要求3所述的字幕同步裝置,其中:
如果動態(tài)采樣調(diào)整模塊確定語音識別模塊生成的文字信息中的語音單詞的數(shù)量低于最小數(shù)量m,則動態(tài)采樣調(diào)整模塊控制語音識別模塊提高采樣頻率來對語音進行采樣;
如果動態(tài)采樣調(diào)整模塊確定語音識別模塊生成的文字信息中的語音單詞的數(shù)量高于最大數(shù)量n,則動態(tài)采樣調(diào)整模塊控制語音識別模塊降低采樣頻率來對語音進行采樣。
5.如權(quán)利要求3或4所述的字幕同步裝置,其中,動態(tài)采樣調(diào)整模塊考慮語音識別模塊生成的文字信息中的語音單詞的語義意義來評價文字信息的語義識別度。
6.如權(quán)利要求1所述的字幕同步裝置,其中,字幕語義對比模塊采用模糊算法對播放視頻的附加多國語言字幕的文字進行字符評分,從而找出字幕文件中得分最高的句子作為與文字信息匹配的句子。
7.如權(quán)利要求1所述的字幕同步裝置,其中,如果字幕語義對比模塊沒有在字幕文件中找到與識別的語音的文字信息對應的句子,則通知動態(tài)采樣調(diào)整模塊提高語音識別模塊的采樣頻率。
8.一種基于語音識別的字幕同步方法,包括:
(a)從與播放視頻對應的音頻流提取前景聲音中的語音,并對提取的語音進行采樣和識別,從而生成與識別的語音對應的文字信息;
(b)通過確定生成的文字信息中的語音單詞的個數(shù)是否在預定范圍內(nèi)來對生成的文字信息進行語義識別度的評價,并且根據(jù)評價的結(jié)果來控制語音識別模塊調(diào)整采樣頻率以獲得具有高語義識別度的文字信息;
(c)將具有高語義識別度的文字信息與播放視頻的附加多國語言字幕的文字進行語義匹配,以在字幕文件中找到與識別的語音的文字信息對應的句子;
(d)根據(jù)語音的時間信息來調(diào)整字幕文件的時間信息;
(e)根據(jù)調(diào)整后的字幕文件的時間信息來顯示字幕。
9.如權(quán)利要求8所述的字幕同步方法,還包括:
根據(jù)用戶的選擇來確定將要顯示的字幕的語言。
10.如權(quán)利要求8所述的字幕同步方法,其中,在步驟(b),當確定步驟(a)生成的文字信息中的語音單詞的個數(shù)在預定范圍[m,n]內(nèi)時,確定文字信息具有高語義識別度,其中m、n是自然數(shù)。
11.如權(quán)利要求8所述的字幕同步方法,其中,在步驟(b),
如果確定步驟(a)生成的文字信息中的語音單詞的數(shù)量低于最小數(shù)量m,則返回步驟(a)并提高采樣頻率來對語音進行采樣;
如果確定步驟(a)生成的文字信息中的語音單詞的數(shù)量高于最大數(shù)量n,則返回步驟(a)降低采樣頻率來對語音進行采樣。
12.如權(quán)利要求10或11所述的字幕同步方法,其中,在步驟(b),考慮步驟(a)生成的文字信息中的語音單詞的語義意義來評價文字信息的語義識別度。
13.如權(quán)利要求8所述的字幕同步方法,其中,在步驟(c),采用模糊算法對播放視頻的附加多國語言字幕的文字進行字符評分,從而找出字幕文件中得分最高的句子作為與文字信息匹配的句子。
14.如權(quán)利要求8所述的字幕同步方法,其中,如果在步驟(c)沒有在字幕文件中找到與識別的語音的文字信息對應的句子,則返回步驟(a)提高語音識別的采樣頻率。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于三星電子(中國)研發(fā)中心;三星電子株式會社,未經(jīng)三星電子(中國)研發(fā)中心;三星電子株式會社許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310069142.9/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
H04N 圖像通信,如電視
H04N21-00 可選的內(nèi)容分發(fā),例如交互式電視,VOD〔視頻點播〕
H04N21-20 .專門適用于內(nèi)容分發(fā)的專用服務器,例如:VOD服務器;其操作
H04N21-40 .專門適用于接收內(nèi)容或者與內(nèi)容交互的客戶端設備,如STB[機頂盒];相關(guān)操作
H04N21-60 .用于在服務器和客戶端之間或者在遠程客戶端之間的視頻分配的網(wǎng)絡結(jié)構(gòu)或者處理
H04N21-80 .通過內(nèi)容產(chǎn)生器獨立于分配過程實現(xiàn)的內(nèi)容或附加數(shù)據(jù)的生成或處理;內(nèi)容本身
H04N21-81 ..其單媒體部件





