[發明專利]一種基于多特征融合和隨機森林模型的新聞故事分割方法有效
| 申請號: | 202011638105.1 | 申請日: | 2020-12-31 |
| 公開(公告)號: | CN112633241B | 公開(公告)日: | 2023-06-30 |
| 發明(設計)人: | 王若梅;周明杰;周凡 | 申請(專利權)人: | 中山大學 |
| 主分類號: | G06V20/40 | 分類號: | G06V20/40;G06V10/25;G06V10/774;G06V10/764;G06V10/80;G06F40/289 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 510006 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 特征 融合 隨機 森林 模型 新聞 故事 分割 方法 | ||
1.一種基于多特征融合和隨機森林模型的新聞故事分割方法,其特征在于,所述方法包括:
以新聞視頻作為輸入源,進行視覺特征提取包括新聞主題字幕特征提取、直播間切換特征提取和鏡頭切換特征提取,進行聽覺特征提取包括靜音區特征提??;
以新聞主題字幕幀的時間節點作為輸入源,確定候選邊界范圍,以所述新聞視頻作為輸入源進行語音識別,獲得語音識別結果,確定具體候選邊界點;
以所述語音識別結果作為輸入,進行語義特征提取,包括概要匹配特征提取、語義相似度特征提取和文本深度特征提?。?/p>
使用手動標注出新聞故事單元邊界點和邊界點處特征后的視頻作為訓練集,對隨機森林模型進行訓練,將所述新聞視頻已提取的視頻特征值和所述具體候選邊界點輸入訓練好的隨機森林模型進行二分類任務,歸類結果為新聞故事單元邊界和非邊界兩類;
以所述歸類結果對目標視頻進行分割,獲得最終結果即新聞視頻的故事單元;
其中,所述新聞主題字幕特征提取,具體為:
以所述新聞視頻作為輸入源,主題字幕出現在(96,310)與(432,336)兩個點構成的矩形區域內,此區域為處理的目標區域,將目標區域圖像轉化為HSV色彩模型,統計矩形區域內H(色調)值為90與103的點的數量,V(明度)大于等于200的點的數量,分別記為f1,f2,f3;
若f1200∧f2300∧f33000,則目標區域可能出現主題字幕,進行下一步判斷;
從當前幀起每秒取一幀,分別計算連續三幀f1,f2,f3變化量絕對值的累加和,記為Δf1,Δf2,Δf3,若Δf1800∧Δf2500∧Δf3400,則認為目標幀為主題字幕幀;
將目標幀的目標區域與上一個主題字幕幀的目標區域進行二值圖的逐點比較,記像素值不相等的像素點的數量為dif,若dif1000則認為當前主題字幕為首次出現,記錄當前幀的時間節點,即新聞主題字幕幀的時間節點;
完成對整個視頻的遍歷,結果作為新聞主題字幕特征;
其中,所述鏡頭切換特征提取,具體為:
以所述新聞視頻作為輸入源,對所述新聞視頻每秒取1幀,使用連續兩幀的顏色直方圖差異作為鏡頭切換的衡量標準;
首先,分段對圖像的RGB值進行映射減少計算量,R=R0/32,G=G0/32,B=B0/32,其中R0,G0,B0分別為原始RGB各個分量的值;
然后,將RGB顏色映射為一個標量v=R*64+B*8+G,共512種顏色,v∈[0,512);
使用局部像素重采樣對圖像進行縮放,長寬均縮放至原來的的1/4;
計算縮放后的當前幀圖像的顏色直方圖,即計算v∈[0,512),每個v值對應的像素的個數,與前一幀(每秒取一幀)v值對應的像素的個數逐值相減,取絕對值后加和,記為dif,若dif10000,則認為當前幀出現了鏡頭切換,記錄當前幀的時間節點;
完成對整個視頻的遍歷,結果作為鏡頭切換特征;
其中,所述靜音區特征提取,具體為:
以所述新聞視頻作為輸入源,將視頻文件轉換為音頻文件;
然后獲取音頻的信息,得到每個采樣點的能量,以256個采樣點為一幀,計算每一幀的短時能量和過零率;
計算每一秒(25幀/秒)平均短時能量和平均過零率,分別記為f1,f2,若f11000000∧f20.05,則標記當前時間點為靜音點;
剔除孤立的靜音點,結果作為靜音區特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中山大學,未經中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011638105.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種二缸發動機渦輪增壓系統裝置
- 下一篇:一種基于大數據的智慧交通系統





