[發(fā)明專利]視頻播放過程中的信息推送方法和裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201910597924.7 | 申請(qǐng)日: | 2019-07-04 |
| 公開(公告)號(hào): | CN110324702B | 公開(公告)日: | 2022-06-07 |
| 發(fā)明(設(shè)計(jì))人: | 姜紅亮 | 申請(qǐng)(專利權(quán))人: | 三星電子(中國)研發(fā)中心;三星電子株式會(huì)社 |
| 主分類號(hào): | H04N21/439 | 分類號(hào): | H04N21/439;H04N21/435;H04N21/81;G10L25/57;G10L25/54;G10L25/30 |
| 代理公司: | 北京德琦知識(shí)產(chǎn)權(quán)代理有限公司 11018 | 代理人: | 孟旸;王麗琴 |
| 地址: | 210012 江蘇省南京市*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 視頻 播放 過程 中的 信息 推送 方法 裝置 | ||
1.一種視頻播放過程中的信息推送方法,包括:
從當(dāng)前正在播放的視頻文件中提取當(dāng)前正在播放的音頻數(shù)據(jù);
從所述音頻數(shù)據(jù)中分離出背景聲音,其中所述音頻數(shù)據(jù)中除說話聲音以外的其他聲音均為所述背景聲音;
對(duì)所述背景聲音進(jìn)行識(shí)別,獲得所述背景聲音的類別;
將與所述背景聲音的類別相匹配的文字信息和/或圖像信息推送至當(dāng)前正在播放的視頻區(qū)域中顯示;
其中,所述背景聲音的類別包括聲音的名稱和屬性,屬性表示聲音的程度或者聲音給人的感受或者聲音所反映的情緒;
所述的將與所述背景聲音的類別相匹配的文字信息和/或圖像信息推送至當(dāng)前正在播放的視頻區(qū)域中顯示,包括:
在已存儲(chǔ)有所述文字信息和/或圖像信息的數(shù)據(jù)庫中檢索與所述背景聲音的名稱和屬性均相匹配的文字信息和/或圖像信息,并將檢索到的文字信息和/或圖像信息實(shí)時(shí)推送至當(dāng)前正在播放的視頻區(qū)域中顯示。
2.根據(jù)權(quán)利要求1所述的視頻播放過程中的信息推送方法,其特征在于,所述的從當(dāng)前正在播放的視頻文件中提取當(dāng)前正在播放的音頻數(shù)據(jù),包括:
將當(dāng)前正在播放的視頻文件中的正在播放的音頻數(shù)據(jù)從所述視頻文件中提取出來。
3.根據(jù)權(quán)利要求1所述的視頻播放過程中的信息推送方法,其特征在于,所述的從所述音頻數(shù)據(jù)中分離出背景聲音,包括:
利用神經(jīng)網(wǎng)絡(luò)將所述音頻數(shù)據(jù)中的說話聲音和背景聲音進(jìn)行分離。
4.根據(jù)權(quán)利要求3所述的視頻播放過程中的信息推送方法,其特征在于,利用神經(jīng)網(wǎng)絡(luò)將所述音頻數(shù)據(jù)中的說話聲音和背景聲音進(jìn)行分離,包括:
對(duì)所述音頻數(shù)據(jù)進(jìn)行短時(shí)傅里葉變換得到混合音頻的振幅譜和相位譜;
所述混合音頻的振幅譜經(jīng)過所述神經(jīng)網(wǎng)絡(luò)分離出說話聲音振幅譜和背景聲音振幅譜;
將所述背景聲音振幅譜與所述混合音頻的相位譜進(jìn)行短時(shí)逆傅里葉變換,得到所述背景聲音的波形譜,從而完成所述背景聲音的分離。
5.根據(jù)權(quán)利要求1所述的視頻播放過程中的信息推送方法,其特征在于,所述的對(duì)所述背景聲音進(jìn)行識(shí)別,獲得所述背景聲音的類別,是利用聲音判別模型實(shí)現(xiàn)的。
6.根據(jù)權(quán)利要求5所述的視頻播放過程中的信息推送方法,其特征在于,所述聲音判別模型通過如下方法獲得:
采用特征提取器從背景聲音數(shù)據(jù)中提取特征向量;
將所述特征向量進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練,生成所述聲音判別模型。
7.根據(jù)權(quán)利要求1所述的視頻播放過程中的信息推送方法,其特征在于,在已存儲(chǔ)有所述文字信息和/或圖像信息的數(shù)據(jù)庫中檢索與所述背景聲音的類別相匹配的文字信息和/或圖像信息之后,并在將檢索到的文字信息和/或圖像信息實(shí)時(shí)推送至當(dāng)前正在播放的視頻區(qū)域中顯示之前,所述方法還包括:
在所述數(shù)據(jù)庫中查詢是否有與當(dāng)前正在播放的視頻的風(fēng)格相一致的文字信息和/或圖像信息的顯示風(fēng)格;
如果有,則將所述檢索到的文字信息和/或圖像信息采用與當(dāng)前正在播放的視頻的風(fēng)格相一致的文字信息和/或圖像信息的顯示風(fēng)格;
如果沒有,則獲取當(dāng)前正在播放的視頻的快照,并基于深度學(xué)習(xí)方法,將所述文字信息和/或圖像信息的顯示風(fēng)格轉(zhuǎn)換為與所述當(dāng)前正在播放的視頻的快照的風(fēng)格相一致,并將轉(zhuǎn)換后的所述文字信息和/或圖像信息的顯示風(fēng)格保存于所述數(shù)據(jù)庫中。
8.根據(jù)權(quán)利要求1所述的視頻播放過程中的信息推送方法,其特征在于,所述的將與所述背景聲音的類別相匹配的文字信息和/或圖像信息推送至當(dāng)前正在播放的視頻區(qū)域中顯示,包括:
在所述當(dāng)前正在播放的視頻上方建立透明的信息顯示層;
將所述文字信息和/或圖像信息推送至所述信息顯示層中顯示。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于三星電子(中國)研發(fā)中心;三星電子株式會(huì)社,未經(jīng)三星電子(中國)研發(fā)中心;三星電子株式會(huì)社許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910597924.7/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
H04N 圖像通信,如電視
H04N21-00 可選的內(nèi)容分發(fā),例如交互式電視,VOD〔視頻點(diǎn)播〕
H04N21-20 .專門適用于內(nèi)容分發(fā)的專用服務(wù)器,例如:VOD服務(wù)器;其操作
H04N21-40 .專門適用于接收內(nèi)容或者與內(nèi)容交互的客戶端設(shè)備,如STB[機(jī)頂盒];相關(guān)操作
H04N21-60 .用于在服務(wù)器和客戶端之間或者在遠(yuǎn)程客戶端之間的視頻分配的網(wǎng)絡(luò)結(jié)構(gòu)或者處理
H04N21-80 .通過內(nèi)容產(chǎn)生器獨(dú)立于分配過程實(shí)現(xiàn)的內(nèi)容或附加數(shù)據(jù)的生成或處理;內(nèi)容本身
H04N21-81 ..其單媒體部件





