[發(fā)明專利]視頻標簽的確定方法、裝置、電子設(shè)備及存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202010119212.7 | 申請日: | 2020-02-26 |
| 公開(公告)號: | CN111324771B | 公開(公告)日: | 2022-11-04 |
| 發(fā)明(設(shè)計)人: | 康戰(zhàn)輝 | 申請(專利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/78 | 分類號: | G06F16/78;G06F16/75;G06F16/35;G06F40/295 |
| 代理公司: | 北京派特恩知識產(chǎn)權(quán)代理有限公司 11270 | 代理人: | 趙翠萍;張穎玲 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 視頻 標簽 確定 方法 裝置 電子設(shè)備 存儲 介質(zhì) | ||
1.一種視頻標簽的確定方法,其特征在于,所述方法包括:
獲取對應(yīng)目標視頻的搜索數(shù)據(jù)集,所述搜索數(shù)據(jù)集包括至少兩個搜索文本、以及各所述搜索文本對應(yīng)的點擊次數(shù),所述搜索文本用于搜索得到所述目標視頻、且所述目標視頻被呈現(xiàn)后存在點擊數(shù)據(jù),所述點擊次數(shù)為基于所述搜索文本搜索得到所述目標視頻時,所述目標視頻被點擊的次數(shù);
根據(jù)所述點擊次數(shù)對所述搜索數(shù)據(jù)集中的搜索文本進行篩選,剔除點擊次數(shù)少于次數(shù)閾值的搜索文本;
分別對經(jīng)過剔除后的各所述搜索文本進行關(guān)鍵詞提取,得到至少兩個關(guān)鍵詞;
基于提取得到的所述至少兩個關(guān)鍵詞,生成所述目標視頻的候選標簽;
分別獲取以各所述候選標簽作為搜索文本,進行視頻搜索得到所述目標視頻時,所述目標視頻被點擊的次數(shù),以及包含所述候選標簽的至少一個搜索文本的搜索次數(shù);
確定所述被點擊的次數(shù)與所述搜索次數(shù)的比值,所述比值用于表征以所述候選標簽作為搜索文本,進行視頻搜索得到所述目標視頻時,所述目標視頻被點擊的可能性;
基于所述可能性的高低,對所述候選標簽進行篩選,得到所述目標視頻的目標標簽,所述目標標簽,用于所述目標視頻的搜索、推薦中至少之一。
2.如權(quán)利要求1所述的方法,其特征在于,所述分別對經(jīng)過剔除后的各所述搜索文本進行關(guān)鍵詞提取,包括:
基于經(jīng)過剔除后的各所述搜索文本對應(yīng)的點擊次數(shù),對搜索數(shù)據(jù)集中的搜索文本進行篩選,得到對應(yīng)的所述點擊次數(shù)達到第一次數(shù)閾值的搜索文本;
對所述篩選得到的搜索文本進行關(guān)鍵詞提取。
3.如權(quán)利要求1所述的方法,其特征在于,所述分別對經(jīng)過剔除后的各所述搜索文本進行關(guān)鍵詞提取,包括:
分別對所述至少兩個搜索文本中經(jīng)過剔除后的各搜索文本進行分詞處理,得到對應(yīng)所述搜索文本的至少兩個詞;
分別從得到的各所述搜索文本對應(yīng)的所述至少兩個詞中提取關(guān)鍵詞。
4.如權(quán)利要求3所述的方法,其特征在于,所述分別從得到的各所述搜索文本對應(yīng)的所述至少兩個詞中提取關(guān)鍵詞,包括:
獲取各所述搜索文本對應(yīng)的所述至少兩個詞的詞性;
從所述至少兩個詞中提取詞性為名詞的詞作為相應(yīng)搜索文本的關(guān)鍵詞。
5.如權(quán)利要求3所述的方法,其特征在于,所述分別從得到的各所述搜索文本對應(yīng)的所述至少兩個詞中提取關(guān)鍵詞,包括:
對于各所述搜索文本對應(yīng)的所述至少兩個詞中的每個詞,分別獲取包含所述詞的搜索文本的數(shù)量;
從得到的所述至少兩個詞中,提取所述數(shù)量達到數(shù)量閾值所對應(yīng)的詞為相應(yīng)搜索文本的關(guān)鍵詞。
6.如權(quán)利要求3所述的方法,其特征在于,所述分別從得到的各所述搜索文本對應(yīng)的所述至少兩個詞中提取關(guān)鍵詞,包括:
對各所述搜索文本對應(yīng)的所述至少兩個詞進行命名實體識別;
從所述至少兩個詞中提取屬于命名實體的詞作為相應(yīng)搜索文本的關(guān)鍵詞。
7.如權(quán)利要求1所述的方法,其特征在于,所述基于提取得到的至少兩個關(guān)鍵詞,生成所述目標視頻的候選標簽,包括:
基于提取的至少兩個關(guān)鍵詞,獲取包含所述關(guān)鍵詞的搜索文本的個數(shù)、及搜索文本的總數(shù);
根據(jù)包含所述關(guān)鍵詞的搜索文本的個數(shù)、及搜索文本的總數(shù),確定所述關(guān)鍵詞的逆向文件頻率;
將所述逆向文件頻率達到頻率閾值的關(guān)鍵詞作為所述目標視頻的候選標簽。
8.如權(quán)利要求1所述的方法,其特征在于,所述基于提取得到的所述至少兩個關(guān)鍵詞,生成所述目標視頻的候選標簽,包括:
基于提取得到的至少兩個關(guān)鍵詞,對對應(yīng)同一搜索文本的至少兩個關(guān)鍵詞進行組合,得到關(guān)鍵詞組;
當包含所述關(guān)鍵詞組的搜索文本的搜索次數(shù)達到第二次數(shù)閾值時,將所述關(guān)鍵詞組作為所述目標視頻的候選標簽。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010119212.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





