[發(fā)明專利]一種基于用戶日志的視頻搜索排序訓(xùn)練集構(gòu)建方法及裝置在審
| 申請(qǐng)?zhí)枺?/td> | 201810052822.2 | 申請(qǐng)日: | 2018-01-19 |
| 公開(公告)號(hào): | CN108460085A | 公開(公告)日: | 2018-08-28 |
| 發(fā)明(設(shè)計(jì))人: | 趙曉萌;胡軍 | 申請(qǐng)(專利權(quán))人: | 北京奇藝世紀(jì)科技有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 北京柏杉松知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11413 | 代理人: | 項(xiàng)京;馬敬 |
| 地址: | 100080 北京市海淀區(qū)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 訓(xùn)練樣本 用戶搜索 訓(xùn)練集 日志 構(gòu)建 視頻播放 視頻搜索 用戶日志 采樣 時(shí)長 排序 視頻 人力成本 自動(dòng)構(gòu)建 預(yù)設(shè) 搜索 | ||
1.一種基于用戶日志的視頻搜索排序訓(xùn)練集構(gòu)建方法,其特征在于,包括:
獲取用戶搜索日志,所述獲取的用戶搜索日志中包含被搜索到的視頻對(duì)應(yīng)的視頻相關(guān)特征;所述視頻相關(guān)特征中至少包含:視頻播放時(shí)長;
對(duì)獲取的用戶搜索日志進(jìn)行采樣,獲得采樣后的用戶搜索日志作為訓(xùn)練樣本;
獲得每條訓(xùn)練樣本的視頻播放時(shí)長,按照預(yù)設(shè)的得分與視頻播放時(shí)長的對(duì)應(yīng)關(guān)系,獲得每條訓(xùn)練樣本的得分;
將所有訓(xùn)練樣本及對(duì)應(yīng)的得分構(gòu)建為訓(xùn)練集。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取用戶搜索日志的步驟,為:每次用戶根據(jù)搜索詞進(jìn)行搜索時(shí),獲取根據(jù)用戶搜索生成的搜索日志。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述視頻相關(guān)特征還包括:視頻本身特征、視頻文本相關(guān)性特征和用戶維度特征;
所述獲取用戶搜索日志的步驟,包括:
當(dāng)用戶根據(jù)搜索詞進(jìn)行搜索時(shí),生成針對(duì)搜索詞檢索的原始用戶搜索日志,原始用戶搜索日志中包含:視頻本身特征中的視頻時(shí)長、視頻數(shù)據(jù)類型特征及各特征對(duì)應(yīng)的特征值;
計(jì)算視頻本身特征中的視頻新鮮度特征值,搜索詞與搜索結(jié)果的視頻文本相關(guān)性特征值,和用戶點(diǎn)擊、歷史點(diǎn)擊率、搜索時(shí)間對(duì)應(yīng)的用戶維度特征值;
將包含所述視頻本身特征的特征值、視頻文本相關(guān)性特征值及用戶維度特征值的全部特征添加入所述原始用戶搜索日志,生成最終用戶搜索日志并保存。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述訓(xùn)練樣本包括正樣本和負(fù)樣本;
所述對(duì)獲取的用戶搜索日志進(jìn)行采樣,獲得采樣后的用戶搜索日志作為訓(xùn)練樣本的步驟,包括:
從獲取的用戶搜索日志中獲取用戶點(diǎn)擊播放的日志,將每條點(diǎn)擊播放的日志作為一條訓(xùn)練的正樣本;
將獲取的用戶搜索日志中除所述用戶點(diǎn)擊播放的日志之外的用戶搜索日志進(jìn)行負(fù)采樣,獲得負(fù)采樣日志,將獲得的負(fù)采樣日志作為訓(xùn)練的負(fù)樣本。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,在所述從獲取的用戶搜索日志中獲取用戶點(diǎn)擊播放的日志,將每條點(diǎn)擊播放的日志作為一條訓(xùn)練的正樣本,還包括:將其類型設(shè)置為第一類類型標(biāo)識(shí);
所述負(fù)采樣的步驟,包括:
獲取用戶搜索日志中除所述用戶點(diǎn)擊播放的日志之外用戶未點(diǎn)擊播放的作為負(fù)采樣日志,將其類型設(shè)置為第二類類型標(biāo)識(shí);
獲取所述第二類類型標(biāo)識(shí)對(duì)應(yīng)的負(fù)采樣日志中,搜索詞與搜索結(jié)果文本相關(guān)性小于預(yù)設(shè)閾值的負(fù)采樣日志,將其類型設(shè)置為第三類類型標(biāo)識(shí);
獲取所述第二類類型標(biāo)識(shí)對(duì)應(yīng)的負(fù)采樣日志中,按照預(yù)設(shè)規(guī)則確定的負(fù)采樣日志,將其類型設(shè)置為第四類類型標(biāo)識(shí)。
6.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述獲得每條訓(xùn)練樣本的視頻播放時(shí)長,按照預(yù)設(shè)的得分與視頻播放時(shí)長的對(duì)應(yīng)關(guān)系,獲得每條訓(xùn)練樣本的得分的步驟,包括:
將每條正樣本的播放時(shí)長分別與預(yù)設(shè)的第一播放時(shí)長閾值、第二播放時(shí)長閾值及第三播放時(shí)長閾值進(jìn)行比較;其中,預(yù)設(shè)第一播放時(shí)長閾值小于預(yù)設(shè)第二播放時(shí)長閾值,預(yù)設(shè)第二播放時(shí)長閾值小于預(yù)設(shè)第三播放時(shí)長閾值;
若所述正樣本的視頻播放時(shí)長小于預(yù)設(shè)第一播放時(shí)長閾值,則該正樣本的得分為預(yù)設(shè)的最低分;
或者,若所述正樣本的視頻播放時(shí)長大于預(yù)設(shè)第一播放時(shí)長閾值,且小于預(yù)設(shè)第二播放時(shí)長閾值,則該正樣本的得分為預(yù)設(shè)的次低分;
或者,若所述正樣本的視頻播放時(shí)長大于預(yù)設(shè)第二播放時(shí)長閾值,且小于預(yù)設(shè)第三播放時(shí)長閾值,則該正樣本的得分為預(yù)設(shè)的次高分;
或者,若所述正樣本的視頻播放時(shí)長大于預(yù)設(shè)第三播放時(shí)長閾值,則該正樣本的得分為預(yù)設(shè)的最高分;
將每條負(fù)樣本的得分確定為預(yù)設(shè)的最低分。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京奇藝世紀(jì)科技有限公司,未經(jīng)北京奇藝世紀(jì)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810052822.2/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 上一篇:企業(yè)信息模糊查詢方法及系統(tǒng)、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 下一篇:一種基于點(diǎn)擊特征重構(gòu)的檢索結(jié)果排序方法
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種分類器的構(gòu)建方法
- 一種性別分類網(wǎng)絡(luò)訓(xùn)練方法、性別分類方法及相關(guān)裝置
- 人臉識(shí)別方法、裝置、存儲(chǔ)介質(zhì)及計(jì)算機(jī)設(shè)備
- 機(jī)器識(shí)別模型的訓(xùn)練及機(jī)器識(shí)別方法、裝置、電子設(shè)備
- 訓(xùn)練樣本保存方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 信息處理方法、推薦方法及相關(guān)設(shè)備
- 訓(xùn)練樣本篩選方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 文本語料的處理方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種圖像處理模型、機(jī)器學(xué)習(xí)模型的訓(xùn)練方法及裝置
- 預(yù)測(cè)模型訓(xùn)練、數(shù)據(jù)預(yù)測(cè)方法、裝置和存儲(chǔ)介質(zhì)
- 一種訓(xùn)練集的拆分方法及裝置
- 一種訓(xùn)練集的訓(xùn)練方法及裝置
- 多重半監(jiān)督圖像的季節(jié)分類方法、系統(tǒng)、電子設(shè)備和介質(zhì)
- 一種基于特征分布的訓(xùn)練集生成、模型訓(xùn)練方法及裝置
- 訓(xùn)練集的獲取方法、裝置及電子設(shè)備
- 選擇模型訓(xùn)練方法、模型選擇方法、裝置及電子設(shè)備
- 一種工業(yè)物聯(lián)網(wǎng)下的模型智能訓(xùn)練方法
- 一種基于集成學(xué)習(xí)的深度學(xué)習(xí)缺陷圖像識(shí)別方法及系統(tǒng)
- 一種基于最優(yōu)訓(xùn)練集的深度學(xué)習(xí)圖像分類方法及系統(tǒng)
- 一種文本立場(chǎng)檢測(cè)方法





