[發明專利]一種視頻搜索引擎粗排序方法、裝置及電子設備有效
| 申請號: | 201810056946.8 | 申請日: | 2018-01-19 |
| 公開(公告)號: | CN108304512B | 公開(公告)日: | 2021-05-25 |
| 發明(設計)人: | 趙曉萌;陳英傑;胡軍 | 申請(專利權)人: | 北京奇藝世紀科技有限公司 |
| 主分類號: | G06F16/78 | 分類號: | G06F16/78;G06F16/735;G06F16/738;G06K9/62;G06N20/00 |
| 代理公司: | 北京柏杉松知識產權代理事務所(普通合伙) 11413 | 代理人: | 項京;馬敬 |
| 地址: | 100080 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 視頻 搜索引擎 排序 方法 裝置 電子設備 | ||
本發明實施例提供了一種視頻搜索引擎粗排序方法、裝置及電子設備,其中,所述方法包括:獲得多個待排序視頻;針對每個待排序視頻,獲得預設維度的維度特征的得分;針對每個待排序視頻,根據所述維度特征的得分,使用預設的每個維度特征對應的權重值,計算獲得所述每個待排序視頻的總得分;按總得分對多個待排序視頻進行排序。本發明實施例使視頻搜索引擎的搜索結果更符合用戶需求,提高用戶體驗。
技術領域
本發明涉及視頻檢索技術領域,特別是涉及一種視頻搜索引擎粗排序方法、裝置及電子設備。
背景技術
目前,視頻搜索引擎在進行視頻搜索時,先獲得通過用戶輸入的關鍵詞召回的海量視頻;再針對召回的海量視頻進行粗排序,篩選出一小部分視頻進入精排序;按照精排序的結果,將篩選出的視頻作為搜索結果展示給用戶。
現有的搜索引擎排序過程如圖1所示,在根據搜索詞進行視頻搜索時,會在以文檔形式存儲視頻的文檔庫中進行查找,進而從文檔庫中獲得搜索詞對應視頻所對應的一系列文檔,然后對獲取的文檔進行粗排序,將粗排序的前N位再進行精排序,最后將精排序的結果以及粗排序的N位之后的文檔一起作為搜索結果展示給用戶。
現有技術中對召回的海量視頻進行粗排序,通常采用如下的方法:
獲取用戶輸入的關鍵詞召回的海量視頻的視頻信息,對視頻信息中的特征進行簡單分類降維處理。比如,視頻信息中包含關鍵詞與召回視頻標題、描述等的關系、召回視頻被點擊的次數、播放的時間、上線時間和更新時間等特征。首先,將這些特征降維至文本相關性、質量、及文檔新鮮度等特征,其中,文本相關性特征包括關鍵詞與召回視頻標題、描述等的關系等;質量特征包括召回視頻被點擊的次數、播放的時間等;文檔新鮮度特征包括召回視頻上線時間和更新時間等。之后,根據經驗估算或簡單的規則對降維之后的特征進行打分,獲取各項特征的得分。針對每條被召回的視頻,使用預先根據經驗設置的各項特征的權重值,對各項特征的得分進行線性加權后求和,得出每條被召回的視頻的總得分,再根據總得分對召回的海量視頻進行粗排序。因粗排序階段需要處理的召回視頻數據量比較大,出于其排序方法的復雜度考慮,故其采用的方法相對簡單易實現。
然而,發明人在實現本發明的過程中發現,現有技術至少存在如下問題:
由于各項特征的權重值是根據經驗人為設置的,而用戶進行搜索時的需求不盡相同,用按經驗設置的權重值計算出的總得分進行粗排序,最后輸出的搜索結果,可能不是用戶真正想要搜索的視頻。例如:可能會出現如下情況:當用戶想搜索“起風了”劇場版電影時,輸入的關鍵字是“起風了宮崎駿”,若粗排序過程給予了文本相關性過高的權重,那么粗排序階段會返回很多精確包含“起風了宮崎駿”的相關視頻,這些視頻可能是文本相關性得分很高但質量得分并不高的短視頻,而可能沒有返回用戶想要的文本相關性得分沒那么高但質量得分很高的“起風了”劇場版電影,導致用戶體驗不好;還有可能出現另一種情況:當用戶想看的是“小豬佩奇打針”這特定的一集時,輸入的關鍵字是“小豬佩奇打針”,如果粗排序過程過于重視質量得分,給予了質量過高的權重,那么粗排序的結果可能會將質量得分很高的小豬佩奇專輯結果以及電影劇集排在前面,如果網上資源中“小豬佩奇打針”這一集的質量得分不是很高的話,就可能搜索不到這一集,導致用戶體驗不好。
發明內容
本發明實施例的目的在于提供一種視頻搜索引擎粗排序方法、裝置及電子設備,以使視頻搜索引擎的搜索結果更符合用戶需求,提高用戶體驗。具體技術方案如下:
在本發明實施例的第一方面,公開了一種視頻搜索引擎粗排序方法,包括:
獲得多個待排序視頻;
針對每個待排序視頻,獲得預設維度的維度特征的得分;
針對每個待排序視頻,根據所述維度特征的得分,使用預設的每個維度特征對應的權重值,計算獲得所述每個待排序視頻的總得分;所述預設的每個維度特征對應的權重值,是預先采用機器學習算法,將從已經保存的第一預設時間段內的搜索日志中獲得的視頻樣本進行訓練獲得的;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇藝世紀科技有限公司,未經北京奇藝世紀科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810056946.8/2.html,轉載請聲明來源鉆瓜專利網。





