[發(fā)明專利]一種多模態(tài)信息融合的足球視頻事件檢測(cè)與語義標(biāo)注方法有效
| 申請(qǐng)?zhí)枺?/td> | 201410449960.6 | 申請(qǐng)日: | 2014-09-04 |
| 公開(公告)號(hào): | CN104199933B | 公開(公告)日: | 2017-07-07 |
| 發(fā)明(設(shè)計(jì))人: | 于俊清;王贈(zèng)凱;何云峰 | 申請(qǐng)(專利權(quán))人: | 華中科技大學(xué) |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 華中科技大學(xué)專利中心42201 | 代理人: | 曹葆青 |
| 地址: | 430074 湖北*** | 國(guó)省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 多模態(tài) 信息 融合 足球 視頻 事件 檢測(cè) 語義 標(biāo)注 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明屬于基于內(nèi)容的視頻檢索領(lǐng)域,具體涉及一種多模態(tài)信息融合的足球視頻事件檢測(cè)和語義標(biāo)注方法。
背景技術(shù)
隨著計(jì)算機(jī)技術(shù),存儲(chǔ)技術(shù)和網(wǎng)絡(luò)技術(shù)的高速發(fā)展以及各種數(shù)碼終端和移動(dòng)設(shè)備的不斷更新,視頻數(shù)據(jù)量以爆炸式的速度不斷增長(zhǎng)。同時(shí),由于獲取信息的時(shí)間、地點(diǎn)和方式逐漸不受限制,使得人們對(duì)于視頻檢索的需求大大增加。如何使人們快速從海量的視頻數(shù)據(jù)中找到自己感興趣的視頻片段已成為一種迫切的需求,能夠滿足這一需求的技術(shù)便是目前人們普遍關(guān)注的基于內(nèi)容的視頻檢索(CBVR,Content Based Video Retrieval)技術(shù)。視頻標(biāo)注是CBVR領(lǐng)域的關(guān)鍵技術(shù),也稱為視頻概念檢測(cè)或者高層語義分析,是指根據(jù)視頻所體現(xiàn)的內(nèi)容按概念對(duì)其賦予標(biāo)識(shí)和語義。視頻標(biāo)注是建立視頻索引,實(shí)現(xiàn)基于內(nèi)容的視頻檢索的基礎(chǔ)。從手工標(biāo)注、半自動(dòng)標(biāo)注到自動(dòng)標(biāo)注,視頻標(biāo)注已經(jīng)成為CBVR領(lǐng)域的研究難點(diǎn)和熱點(diǎn),視頻標(biāo)注的準(zhǔn)確性和語義豐富性是視頻檢索質(zhì)量的關(guān)鍵因素,也是基于內(nèi)容的視頻檢索系統(tǒng)成敗的關(guān)鍵。由于視頻數(shù)據(jù)本身的復(fù)雜性、不確定性和現(xiàn)有的條件所限,針對(duì)通用視頻的自動(dòng)標(biāo)注很難實(shí)現(xiàn),目前人們還無法利用通用的特征或方法對(duì)不同類型內(nèi)容的視頻進(jìn)行分析。體育視頻分析是近幾年非常受關(guān)注的視頻類型,而足球運(yùn)動(dòng)作為世界上最流行的體育運(yùn)動(dòng),有著非常廣泛的受眾群體和巨大的商業(yè)價(jià)值。以足球視頻為研究對(duì)象來研究如何從大量的足球視頻找到用戶感興趣的視頻內(nèi)容,并能對(duì)其進(jìn)行詳細(xì)的語義描述,滿足廣大用戶的需求,具有很高學(xué)術(shù)價(jià)值和應(yīng)用前景。
針對(duì)足球視頻事件檢測(cè)和標(biāo)注的研究吸引國(guó)內(nèi)外學(xué)術(shù)界和工業(yè)界的眾多研究人員和研究機(jī)構(gòu)重視,也涌現(xiàn)出許多好的研究成果。從基于單一模態(tài)的聽覺、視覺等特征的足球視頻分析,到基于多模態(tài)特征的足球視頻分析;從利用啟發(fā)式規(guī)則的事件檢測(cè)方法,到利用各種機(jī)器學(xué)習(xí)模型的事件檢測(cè)方法,研究人員提出了許多方法,在一定程度上推動(dòng)了足球視頻檢索技術(shù)的發(fā)展。然而,受限于人工智能和機(jī)器視覺領(lǐng)域的發(fā)展,視頻分析領(lǐng)域存在眾所周知的“語義鴻溝”(Semantic Gap)問題,即視頻底層特征和高層語義之間存在著語義隔閡,如何有效地填補(bǔ)“語義鴻溝”從而提高語義級(jí)視頻檢索效率和服務(wù)質(zhì)量已經(jīng)成為CBVR的研究難點(diǎn)和最為關(guān)鍵的問題。例如,在足球比賽視頻中,目前通過音視頻分析,可以初步確定一些典型事件(射門、進(jìn)球、犯規(guī)、角球等)的位置,但無法確定是哪位球員通過何種方式射門或者進(jìn)球。現(xiàn)有的研究表明,“語義鴻溝”的存在導(dǎo)致單純依靠視頻數(shù)據(jù)本身內(nèi)在的音視頻特征分析,很難準(zhǔn)確地檢測(cè)出視頻中的事件,并自動(dòng)標(biāo)注視頻事件的語義,視頻標(biāo)注結(jié)果的粒度和準(zhǔn)確性無法滿足實(shí)際的需求,已經(jīng)成為阻礙視頻搜索引擎實(shí)用化的瓶頸。
為了實(shí)現(xiàn)視頻事件的檢測(cè)和語義標(biāo)注,研究人員尋求利用視頻外部資源來輔助視頻內(nèi)容的分析。目前所利用的視頻外部資源主要有轉(zhuǎn)錄字幕和網(wǎng)絡(luò)直播文本。轉(zhuǎn)錄字幕是通過語音識(shí)別技術(shù)轉(zhuǎn)錄生成的文字,如新聞解說和場(chǎng)景對(duì)話等。但轉(zhuǎn)錄字幕的輸出質(zhì)量依賴于視頻的質(zhì)量和語音識(shí)別技術(shù),并且轉(zhuǎn)錄字幕包含大量與視頻事件無關(guān)的描述,很難得到有效利用。網(wǎng)絡(luò)直播文本是在體育比賽進(jìn)行時(shí),專業(yè)的體育網(wǎng)站在其頁面上進(jìn)行的同步文字直播,具有較強(qiáng)的實(shí)時(shí)性?,F(xiàn)有的研究工作主要基于具有精確時(shí)間信息的網(wǎng)絡(luò)直播文本,通過對(duì)視頻內(nèi)時(shí)鐘的識(shí)別來建立文本描述和視頻內(nèi)容的對(duì)應(yīng)關(guān)系。然而,第一,大多數(shù)網(wǎng)絡(luò)直播文本的時(shí)間信息并不精確,一般是分鐘級(jí)的時(shí)間信息;第二,體育網(wǎng)站只對(duì)國(guó)際上的重要或著名賽事進(jìn)行網(wǎng)絡(luò)文字直播,還有許多賽事只進(jìn)行賽后的新聞報(bào)道,也就是說網(wǎng)絡(luò)直播文本的通用性不強(qiáng);第三,由于視頻時(shí)間條存在透明、位置變化、風(fēng)格變化、時(shí)隱時(shí)現(xiàn)、分辨率不高等不利因素,視頻時(shí)鐘的精確識(shí)別還面臨較大的挑戰(zhàn)。
發(fā)明內(nèi)容
為了解決上述技術(shù)問題,本發(fā)明提供一種多模態(tài)信息融合的足球視頻事件檢測(cè)與語義標(biāo)注方法,其目的在于充分利用視頻內(nèi)在視聽特征,并結(jié)合視頻外部文本信息,解決足球視頻事件的檢測(cè)和富語義標(biāo)注問題,為實(shí)現(xiàn)基于內(nèi)容的足球視頻檢索打下堅(jiān)實(shí)的基礎(chǔ)。
實(shí)現(xiàn)本發(fā)明目的所采用的具體技術(shù)方案如下:
一種多模態(tài)信息融合的足球視頻事件檢測(cè)與語義標(biāo)注方法,通過對(duì)互聯(lián)網(wǎng)文本和視頻內(nèi)在視聽特征等多模態(tài)信息的綜合利用,實(shí)現(xiàn)足球視頻事件的檢測(cè)和富語義標(biāo)注,包括以下步驟:
(1)從互聯(lián)網(wǎng)上爬取足球比賽對(duì)應(yīng)的賽況報(bào)道文本,利用預(yù)先建立的LSA模型計(jì)算賽況報(bào)道文本中各語句的潛在語義空間查詢向量;并計(jì)算該查詢向量與各種文本事件類型的潛在語義空間向量的余弦相似度,將其歸類為具有最大相似度的事件類別;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華中科技大學(xué),未經(jīng)華中科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410449960.6/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 用于智能機(jī)器人系統(tǒng)多模態(tài)輸出的方法及裝置
- 一種基于深度學(xué)習(xí)的多模態(tài)醫(yī)學(xué)影像識(shí)別方法及裝置
- 一種基于多模態(tài)生成式對(duì)抗網(wǎng)絡(luò)的云圖分類方法
- 一種基于多模態(tài)信息的食道功能性疾病診斷系統(tǒng)
- 一種有監(jiān)督的快速離散多模態(tài)哈希檢索方法和系統(tǒng)
- 一種多模態(tài)數(shù)據(jù)處理方法及系統(tǒng)
- 一種基于多模態(tài)學(xué)習(xí)的電力攻擊識(shí)別方法
- 多源多模態(tài)數(shù)據(jù)的處理系統(tǒng)及應(yīng)用該系統(tǒng)的方法
- 一種基于門機(jī)制多模態(tài)融合的情感分析方法
- 面向?qū)捰蝻w行的多模態(tài)精確劃分方法
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





