[發(fā)明專(zhuān)利]視頻片段描述的生成方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 202010026651.3 | 申請(qǐng)日: | 2020-01-10 |
| 公開(kāi)(公告)號(hào): | CN111274443B | 公開(kāi)(公告)日: | 2023-06-09 |
| 發(fā)明(設(shè)計(jì))人: | 龍翔;何棟梁;李甫;趙翔;林天威;孫昊;文石磊;丁二銳 | 申請(qǐng)(專(zhuān)利權(quán))人: | 北京百度網(wǎng)訊科技有限公司 |
| 主分類(lèi)號(hào): | G06F16/738 | 分類(lèi)號(hào): | G06F16/738;G06V20/40 |
| 代理公司: | 北京鴻德海業(yè)知識(shí)產(chǎn)權(quán)代理有限公司 11412 | 代理人: | 田宏賓 |
| 地址: | 100085 北京市*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 視頻 片段 描述 生成 方法 裝置 電子設(shè)備 存儲(chǔ) 介質(zhì) | ||
1.一種視頻片段描述的生成方法,其特征在于,包括:
采用預(yù)訓(xùn)練的視頻描述模型中的視頻片段提議模塊從待分析的視頻中提取多個(gè)視頻提議片段;
采用所述視頻描述模型中的視頻片段篩選模塊對(duì)所述多個(gè)視頻提議片段進(jìn)行篩選,獲取適合描述的多個(gè)視頻片段;
采用所述視頻描述模型中的視頻片段描述模塊對(duì)各視頻片段進(jìn)行描述;采用預(yù)訓(xùn)練的視頻描述模型中的視頻片段提議模塊從待分析的視頻中提取多個(gè)視頻提議片段,包括:
對(duì)于預(yù)先獲取的所述待分析的視頻對(duì)應(yīng)的至少一個(gè)視頻幀特征序列中各所述視頻幀特征序列,采用預(yù)先訓(xùn)練的置信度統(tǒng)計(jì)模型,獲取對(duì)應(yīng)的片段置信度圖,共得到至少一種片段置信度圖;所述片段置信度圖中包括所述待分析的視頻中所有視頻片段的置信度;所述視頻片段的置信度是所述視頻片段被選擇為所述視頻提議片段的依據(jù);
根據(jù)所述至少一種片段置信度圖,獲取所述待分析的視頻中的多個(gè)視頻提議片段。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述視頻描述模型中的所述視頻片段提議模塊、所述視頻片段篩選模塊和所述視頻片段描述模塊經(jīng)過(guò)聯(lián)合訓(xùn)練得到。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:
獲取通過(guò)人工方式從所述待分析的視頻中提取的所述多個(gè)視頻提議片段。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,對(duì)于預(yù)先獲取的所述待分析的視頻對(duì)應(yīng)的至少一個(gè)視頻幀特征序列中各所述視頻幀特征序列,采用預(yù)先訓(xùn)練的置信度統(tǒng)計(jì)模型,獲取對(duì)應(yīng)的片段置信度圖,共得到至少一種片段置信度圖之前,所述方法還包括:
提取所述待分析的視頻中的各視頻幀;
采用預(yù)訓(xùn)練的第一子模型、第二子模型和第三子模型中的至少一種,分別提取各所述視頻幀中的視頻幀特征,得到對(duì)應(yīng)的視頻幀特征序列,共得到至少一個(gè)視頻幀特征序列。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)所述至少一種片段置信度圖,獲取所述待分析的視頻中的多個(gè)視頻提議片段,包括:
若僅包括一種所述片段置信度圖時(shí),根據(jù)所述片段置信度圖中各所述視頻片段的置信度,獲取置信度前topN個(gè)視頻片段,作為對(duì)應(yīng)的所述視頻提議片段;
若包括至少兩種所述片段置信度圖時(shí),將所述至少兩種片段置信度圖中相同片段的置信度進(jìn)行加權(quán)融合,得到融合后的各片段的置信度;根據(jù)融合各所述片段的置信度,獲取置信度前topN個(gè)視頻片段,作為對(duì)應(yīng)的所述視頻提議片段。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,采用所述視頻描述模型中的視頻片段篩選模塊對(duì)所述多個(gè)視頻提議片段進(jìn)行篩選,獲取適合描述的多個(gè)視頻片段,包括:
獲取所述待分析的視頻的特征;
獲取各所述視頻提議片段的特征;
采用預(yù)先訓(xùn)練的分類(lèi)模型、所述待分析的視頻的特征以及各所述視頻提議片段的特征,從所述多個(gè)視頻提議片段中篩選出適合描述的所述多個(gè)視頻片段。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,采用預(yù)先訓(xùn)練的分類(lèi)模型、所述待分析的視頻的特征以及各所述視頻提議片段的特征,從所述多個(gè)視頻提議片段中篩選出適合描述的所述多個(gè)視頻片段,包括:
對(duì)于所述多個(gè)視頻提議片段中的各所述視頻提議片段,將所述視頻提議片段的特征和所述待分析的視頻的特征,輸入至所述分類(lèi)模型中,并獲取所述分類(lèi)模型輸出的概率值;
判斷輸出的所述概率值是否大于預(yù)設(shè)概率閾值;
若是,確定所述視頻提議片段為適合描述的視頻片段,共得到適合描述的所述多個(gè)視頻片段。
8.一種視頻描述模型的訓(xùn)練方法,其特征在于,包括:
對(duì)視頻描述模型中的視頻片段篩選模塊和視頻片段描述模塊各自獨(dú)立進(jìn)行預(yù)訓(xùn)練;所述視頻描述模型應(yīng)用于權(quán)利要求1-7任一項(xiàng)所述的方法中;
對(duì)經(jīng)過(guò)預(yù)訓(xùn)練后的所述視頻片段篩選模塊和所述視頻片段描述模塊進(jìn)行聯(lián)合訓(xùn)練。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于北京百度網(wǎng)訊科技有限公司,未經(jīng)北京百度網(wǎng)訊科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010026651.3/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。





