[發(fā)明專利]基于在線視頻分享網(wǎng)站結(jié)構(gòu)及視頻描述文本信息的視頻主題發(fā)現(xiàn)的方法無效
| 申請?zhí)枺?/td> | 201010192853.1 | 申請日: | 2010-05-31 |
| 公開(公告)號: | CN101894129A | 公開(公告)日: | 2010-11-24 |
| 發(fā)明(設計)人: | 俞能海;劉毅捷 | 申請(專利權(quán))人: | 中國科學技術(shù)大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 230026*** | 國省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 在線視頻 分享 網(wǎng)站 結(jié)構(gòu) 視頻 描述 文本 信息 主題 發(fā)現(xiàn) 方法 | ||
1.一種基于在線視頻分享網(wǎng)站結(jié)構(gòu)及視頻描述文本信息的視頻主題發(fā)現(xiàn)的方法,其特征在于,包括文本信息增強、主題聚合和結(jié)果修正三大步驟:
所述的文本信息增強步驟為:
步驟a,對于單個視頻V,抓取其本身及全部相關(guān)視頻的文本描述信息,V的相關(guān)視頻是由網(wǎng)站本身提供的,它們在內(nèi)容層面具有一定的相關(guān)性;
步驟b,對視頻V的文本信息建立BOW(Bag-Of-Words)模型,使用tfidf值做為該模型的描述;
步驟c,使用V的相關(guān)視頻的文本信息對V本身BOW模型中詞頻一項進行修正與增強;
所述的主題聚合方法步驟為:
步驟d,對于整個視頻數(shù)據(jù)集,按照詞與詞在單個視頻中共同出現(xiàn)的概率構(gòu)造單詞相關(guān)度圖;
步驟e,計算每個單詞的混合權(quán)重,其中包括三個不同的權(quán)重:tfidf權(quán)重,相關(guān)度權(quán)重和KL變換投影權(quán)重;
步驟f,根據(jù)混合權(quán)重對單詞集進行篩選,對篩選過后的單詞相關(guān)度圖進行拆分和合并處理,并定義每個子連通圖上的頂點集合為一個主題核單元;
步驟g,根據(jù)主題核單元對視頻數(shù)據(jù)集進行聚類,并合并聚類結(jié)果中重合率超過一定閾值的兩類或多類;
所述的結(jié)果修正步驟為:
步驟h,抓取視頻網(wǎng)站提供的,“使用該視頻做為另一視頻的回復”的結(jié)構(gòu)化信息;
步驟i,根據(jù)“帶有回復關(guān)系的兩個視頻必共享某種公共主題”的假設,利用回復及被回復視頻的主題信息對當前視頻主題進行修正。
2.根據(jù)權(quán)利要求1所述的視頻主題發(fā)現(xiàn)方法,其特征在于,所述的步驟c具體為,
對單個視頻Vi的所有相關(guān)視頻進行處理,統(tǒng)計Vi中所有出現(xiàn)過的單詞tfi(tk)在相關(guān)視頻中出現(xiàn)文本的頻率dfri(tk),依以下公式對tfi(tk)進行修正:
tfi′(tk)=tfi(tk)+dfri(tk)
之后利用新的tfi′(tk)值重新計算tfidf并構(gòu)造文本信息的向量空間表達。
3.根據(jù)權(quán)利要求1所述的視頻主題發(fā)現(xiàn)方法,其特征在于,所述的步驟d為,
對于整個視頻數(shù)據(jù)集,按照詞與詞在單個視頻中共同出現(xiàn)的概率構(gòu)造單詞互相關(guān)圖Gt。Gt的各個頂點由各單詞組成,鏈接頂點的邊的權(quán)重由單詞間相關(guān)度定義。其中詞ti與詞tj的相關(guān)度定義為:?
其中,df(ti∩tj)是指在視頻數(shù)據(jù)集中,單詞ti與tj出現(xiàn)在同一文檔中的頻率。
4.根據(jù)權(quán)利要求1所述的視頻主題發(fā)現(xiàn)方法,其特征在于,所述的步驟e為,計算每個單詞的混合權(quán)重,其中包括三個不同的權(quán)重:tfidf權(quán)重wti,相關(guān)度權(quán)重wri和KL變換投影權(quán)重wpi,在計算出三種不同權(quán)重之后,合并計算各個單詞的混合權(quán)重:
wci=αwti+βwri+(1-α-β)wpi。
5.根據(jù)權(quán)利要求4所述的權(quán)重計算方法中,其中KL變換投影權(quán)重的特征為:
首先構(gòu)造tfidf矩陣,使每行表示一個文檔,每列表示一個單詞;其次計算該矩陣的自相關(guān)矩陣的特征值及對應特征向量;之后,將特征值按大小進行排序,保留包含總能量95%的部分,計其包含Ne個特征值;最后,計算保留下的特征值的對應特征向量Ek{k=1,2,...Ne}的能量和:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學技術(shù)大學,未經(jīng)中國科學技術(shù)大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010192853.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





