[發明專利]一種整合在線視頻資源地址的方法、裝置及引擎有效
| 申請號: | 201410103371.2 | 申請日: | 2014-03-19 |
| 公開(公告)號: | CN103823907B | 公開(公告)日: | 2018-03-02 |
| 發明(設計)人: | 侯小虎 | 申請(專利權)人: | 北京奇虎科技有限公司;奇智軟件(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京中強智尚知識產權代理有限公司11448 | 代理人: | 姜精斌,王書彪 |
| 地址: | 100088 北京市西城區新*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 整合 在線視頻 資源 地址 方法 裝置 引擎 | ||
技術領域
本發明涉及搜索領域,特別涉及一種整合在線視頻資源地址的方法、裝置及引擎。
背景技術
視頻資源需求是用戶在進行網頁搜索中的最大需求之一,視頻資源需求的總需求量達到網頁搜索總量的10%以上。視頻資源包括:微電影、電影、MTV、綜藝節目、電視劇等等。當用戶觀看的視頻資源為電視劇時,往往需要觀看到電視劇的全集,或者能夠及時了解電視劇的更新情況。
隨著互聯網技術的不斷發展,更多的視頻資源呈現在網絡上供用戶選擇。對于電視劇,當其更新后會被更新到網絡中,但是網絡中的每一集的長度和電視上的每一集長度有時不同,并且由于在更新到網絡上時電視劇被處理過,因此每個電視劇到底多少集,在每個網絡中有不同的展示結果。
對于用戶的視頻全集的搜索需求,搜索引擎主要是通過對網頁的標題和摘要進行計算,給出搜索結果,由于大量的視頻頁面為了獲得用戶的關注和點擊,在標題和摘要方面做了很多關鍵詞的堆砌,因此,基于網頁標題和摘要進行搜索的結果,雖然顯示都是全集,但實際上,這些視頻全集的搜索結果中,有些可能確實包含視頻全集,有些則不包含視頻全集。
如圖1A所示的對《天天有喜》的視頻全集的搜索結果,根據搜索結果可知,不同的搜索結果展示的劇集信息不同,前面兩個的搜索結果中顯示的該電視劇的全集為91集,第三個搜索結果顯示的該電視劇的全集為90集。
用戶往往并不知道視頻全集到底是多少集,對于搜索結果中在標題或者摘要中聲稱為全集的,其內容有時則不一定為全集,用戶需要點擊進入具體的頁面才能知曉是否為視頻全集,這樣,如果用戶點擊某搜索結果的頁面后無法觀看到全部的視頻劇情,則需要重新點擊查看其他搜索結果項或者進行重新搜索,費時費力,搜索的準確性和效率較低。因此需要搜索引擎能夠根據搜索到的結果對視頻資源的信息進行整合,向用戶提供準確的搜索結果。
發明內容
鑒于上述問題,提出了本發明以便提供一種整合在線視頻資源地址的方法、裝置及引擎,提高搜索的準確度。
依據本發明實施例提供了一種整合在線視頻資源地址的方法,該方法包括:
抓取提供某一視頻數據在線播放的視頻網頁;
分析所述抓取到的視頻網頁數據結構,獲取所述視頻網頁中對應的視頻的數據信息;
判斷所述數據信息中是否包含所述視頻數據當前所屬劇集,及所述視頻數據其他劇集的信息;
如果包含,提取所述其他劇集信息對應的資源定位地址;
將所述視頻網頁對應的資源定位地址與所述其他劇集對應的資源定位地址進行整合,保存到視頻標準劇集庫。
可選地,在根據本發明的實施例的整合在線視頻資源地址的方法中,所述將所述視頻網頁對應的資源定位地址與所述其他劇集對應的資源定位地址進行整合包括:判斷其他劇集對應的資源定位地址是否與所述視頻網頁對應的資源定位地址屬于相同域名;如果屬于相同域名,則將所述視頻網頁對應的資源定位地址與所述其他同類劇集對應資源定位地址進行整合。
可選地,在根據本發明的實施例的整合在線視頻資源地址的方法中,所述將所述視頻網頁對應的資源定位地址與所述其他劇集對應的資源定位地址進行整合包括:判斷其他劇集對應的資源定位地址對應的是否為無效鏈接,如果不是,則將所述視頻網頁對應的資源定位地址與所述其他劇集對應的資源定位地址進行整合。
可選地,在根據本發明的實施例的整合在線視頻資源地址的方法中,按資源定位地址所屬的域名,對整合后的在線視頻地址集合按照優先級排序。
可選地,在根據本發明的實施例的整合在線視頻資源地址的方法中,該方法還包括:訪問所述視頻標準劇集庫中的所有資源定位地址,將無效鏈接對應的資源定位地址從所述視頻標準劇集庫中刪除。
本發明實施例提供一種整合在線視頻資源地址的裝置,該裝置包括:
網頁抓取單元,適于抓取提供某一視頻數據在線播放的視頻網頁;
數據分析單元,適于分析所述抓取到的視頻網頁數據結構,獲取所述視頻網頁中對應的視頻的數據信息;判斷所述數據信息中是否包含所述視頻數據當前所屬劇集、及所述視頻數據其他劇集的信息;如果包含,提取所述其他劇集信息對應的資源定位地址;
數據索引單元,適于將所述視頻網頁對應的資源定位地址與所述其他劇集對應的資源定位地址進行整合;
視頻標準劇集庫,適于保存整合后的視頻網頁對應的資源定位地址與所述其他劇集對應的資源定位地址。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇虎科技有限公司;奇智軟件(北京)有限公司,未經北京奇虎科技有限公司;奇智軟件(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410103371.2/2.html,轉載請聲明來源鉆瓜專利網。





