[發(fā)明專利]用于生成音頻/可視數(shù)據(jù)流的概要的方法和設(shè)備無效
| 申請?zhí)枺?/td> | 200980121725.3 | 申請日: | 2009-06-02 |
| 公開(公告)號: | CN102057433A | 公開(公告)日: | 2011-05-11 |
| 發(fā)明(設(shè)計)人: | M·帕斯特爾納克;P·方塞卡 | 申請(專利權(quán))人: | 皇家飛利浦電子股份有限公司 |
| 主分類號: | G11B27/02 | 分類號: | G11B27/02 |
| 代理公司: | 中國專利代理(香港)有限公司 72001 | 代理人: | 劉紅;劉鵬 |
| 地址: | 荷蘭艾*** | 國省代碼: | 荷蘭;NL |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用于 生成 音頻 可視 數(shù)據(jù)流 概要 方法 設(shè)備 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及用于生成音頻/可視數(shù)據(jù)流的概要的方法和設(shè)備。
背景技術(shù)
正如不斷增長的體育頻道的數(shù)量所反映的,觀看廣播體育賽事已變得日益普及。但是,巨大數(shù)量的可用內(nèi)容使得用戶不可能觀看所有的內(nèi)容。
一種現(xiàn)有的解決方案是給用戶提供顯示主要亮點(diǎn)(highlight)的賽事的概要?,F(xiàn)有的概要系統(tǒng)通常以選擇視頻序列中與預(yù)定義時間間隔相適合的最佳片段(segment)為目標(biāo)。例如,如果用戶請求5分鐘的概要,則該系統(tǒng)檢測哪些是與5分鐘的那個概要相適合的最佳片段。
一種非常流行觀看的運(yùn)動是網(wǎng)球,并且即使具有通常不超過三或四場同時廣播的比賽,比賽的數(shù)量(尤其在第一輪競賽期間)也是足夠高的,以致阻止用戶觀看所有的比賽。而且,網(wǎng)球的結(jié)構(gòu)對應(yīng)于交替序列的連續(xù)對打(rally)和暫停(break),其經(jīng)常充滿著商業(yè)廣告節(jié)目。結(jié)果,用戶希望能夠觀看亮點(diǎn)而不是整場比賽,特別地,用戶希望能夠觀看那些有趣的、引人注目的或?qū)τ谧罱K結(jié)果是重要的連續(xù)對打。
US?2007/0292112公開了一種在網(wǎng)球比賽的膠片(film)中搜索亮點(diǎn)的方法。在膠片中檢測多個長視場鏡頭(long-field?view?shot),并且長視場鏡頭的音頻能量用于確定屬于這些亮點(diǎn)的所希望的長視場鏡頭。例如,音頻能量用于在長視場鏡頭期間識別歡呼,以確定亮點(diǎn)。
但是,從US?2007/0292112的方法中不可能確定最重要的(例如,最有趣的)亮點(diǎn)。進(jìn)一步,用于識別歡呼的音頻能量并不是特別準(zhǔn)確的,因?yàn)樗锌赡馨ú恍枰脑肼暎T如解說員的畫外音或由運(yùn)動員發(fā)出的例如尖叫、球擊中之類的聲音。
發(fā)明內(nèi)容
本發(fā)明設(shè)法提供一種方法,籍此生成包括音頻/可視數(shù)據(jù)流中的最重要亮點(diǎn)的概要。本發(fā)明進(jìn)一步尋求改善檢測最重要亮點(diǎn)的精確度。
根據(jù)本發(fā)明的一個方面,這利用生成音頻/可視數(shù)據(jù)流的概要的方法來實(shí)現(xiàn),該數(shù)據(jù)流包括具有音頻和可視特性的多個連續(xù)幀,該方法包括以下步驟:檢測音頻/可視數(shù)據(jù)流的多個鏡頭;確定音頻/可視數(shù)據(jù)流的多個片段,每一個片段包括該數(shù)據(jù)流中具有相似可視特性的多個鏡頭;選擇所確定的多個片段中的片段;對于該數(shù)據(jù)流中的選擇片段的每一個鏡頭,提取在該鏡頭結(jié)束之后出現(xiàn)的多個連續(xù)幀中的音頻;基于所提取的音頻來選擇至少一個鏡頭;以及生成概要,以包括所選擇的至少一個鏡頭。
根據(jù)本發(fā)明的另一個方面,這也利用用于生成音頻/可視數(shù)據(jù)流的概要的設(shè)備來實(shí)現(xiàn),該數(shù)據(jù)流包括具有音頻和可視特性的多個連續(xù)幀,該設(shè)備包括:鏡頭檢測器,用于檢測音頻/可視數(shù)據(jù)流的多個鏡頭;確定裝置,用于確定音頻/可視數(shù)據(jù)流的多個片段,每一個片段包括該數(shù)據(jù)流中具有相似可視特性的多個鏡頭;第一選擇器,用于選擇所確定的多個片段中的片段;提取器,用于對于該數(shù)據(jù)流的選擇片段的每一個鏡頭、提取在該鏡頭結(jié)束之后出現(xiàn)的多個連續(xù)幀中的音頻;第二選擇器,用于基于所提取的音頻來選擇至少一個鏡頭;以及概要生成器,用于生成概要,以包括所選擇的至少一個鏡頭。
這樣,由于有趣的鏡頭被從原始的音頻/可視數(shù)據(jù)流中識別并分離出來,由此形成概要,所以用戶觀看該概要(例如,亮點(diǎn),諸如網(wǎng)球亮點(diǎn))的體驗(yàn)被充實(shí)。有利地,該概要將取決于數(shù)據(jù)流中的每個鏡頭是多么有趣。進(jìn)一步,鏡頭是“多么有趣”的標(biāo)準(zhǔn)能夠被適應(yīng)(修改)。該適應(yīng)能夠降低或提高閾值,以便獲得相應(yīng)更小或更大的概要。這種控制能夠以非常簡單的方式提供給用戶。作為這種控制的結(jié)果,所生成的概要包括音頻/可視數(shù)據(jù)流中最重要的(例如,最有趣的)亮點(diǎn)。因此,所檢測到的事件(賽事)在更加定制格式的概要中進(jìn)行組合和呈現(xiàn)。進(jìn)一步,通過僅提取緊跟隨在鏡頭之后的幀的音頻并且基于那個音頻的電平來選擇鏡頭,準(zhǔn)確地檢測重要的亮點(diǎn)。換句話說,在該數(shù)據(jù)流的選擇片段的鏡頭期間的音頻被忽略。這消除在音頻讀取中可能由于諸如講解員的話音或運(yùn)動員發(fā)出的聲音之類的不需要噪聲而引起的任何錯誤。進(jìn)一步,通過提取在鏡頭之后的音頻并且基于那個音頻的電平來選擇鏡頭,捕獲對于重要事件的觀眾響應(yīng)的自然延遲。例如,這種方法在與網(wǎng)球相關(guān)使用時是特別有效的,這是因?yàn)榻谷巳涸诒荣愡M(jìn)行期間發(fā)出噪聲,并且只能在每一分已比賽完成之后,即,在每次連續(xù)對打之后作出反應(yīng)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于皇家飛利浦電子股份有限公司,未經(jīng)皇家飛利浦電子股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200980121725.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





