[發明專利]一種網絡短視頻信息收集方法及裝置在審
| 申請號: | 202210417762.6 | 申請日: | 2022-04-20 |
| 公開(公告)號: | CN114896540A | 公開(公告)日: | 2022-08-12 |
| 發明(設計)人: | 劉懷亮;熊帥;楊斌;趙艦波 | 申請(專利權)人: | 樂知未來科技(深圳)有限公司 |
| 主分類號: | G06F16/958 | 分類號: | G06F16/958;G06F16/28;G06F40/154 |
| 代理公司: | 西安嘉思特知識產權代理事務所(普通合伙) 61230 | 代理人: | 辛菲 |
| 地址: | 518129 廣東省深圳市龍*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網絡 視頻 信息 收集 方法 裝置 | ||
1.一種網絡短視頻信息收集方法,其特征在于,包括:
以腳本方式獲取網絡短視頻的HTML網頁文檔以及獲取待查找的目標信息;
將所述網頁文檔轉化為DOM樹結構;
使用xpath定位方法,在所述DOM樹結構中定位包含所述目標信息的目標節點,得到根節點到目標節點的初始路徑;
其中,所述初始路徑由節點名稱按照根節點至目標節點的層級依次組成;
根據節點信息,判斷所述目標節點是否為全局唯一節點;
如果所述目標節點是全局唯一節點,則將所述初始路徑進行精簡,以形成表示目標節點的節點信息的最終路徑;
如果所述目標節點不是全局唯一節點,則在初始路徑上確定全局唯一節點;
將所述全局唯一節點至目標節點的節點信息按照層級組成最終路徑;
按照所述最終路徑獲取所述目標信息對應的目標數據進行存儲。
2.根據權利要求1所述的網絡短視頻信息收集方法,其特征在于,所述根據節點信息,判斷目標節點是否為全局唯一節點包括:
判斷目標節點的節點信息是否與其他節點是否存在部分或者全部相同;
如果存在部分或全部相同,則所述目標節點不為全局唯一節點;
如果目標節點的節點信息與其他節點的完全不同,則目標節點為全局唯一節點。
3.根據權利要求1所述的網絡短視頻信息收集方法,其特征在于,所述如果所述目標節點不是全局唯一節點,則在初始路徑上確定全局唯一節點包括:
如果所述目標節點不是全局唯一節點,則在初始路徑上確定所述目標節點的父節點是否為全局唯一節點;
如果所述父節點不是全局唯一節點,則重復父節點的父節點是否為全局唯一節點的步驟,直至在所述初始路徑上找到全局唯一節點。
4.根據權利要求3所述的網絡短視頻信息收集方法,其特征在于,在確定全局唯一節點之后,所述網絡段視頻收集方法還包括:
判斷是否存在親兄弟節點與所述目標節點重復,使得所述目標節點不為全局唯一節點。
5.根據權利要求4所述的網絡短視頻信息收集方法,其特征在于,將所述全局唯一節點至目標節點的節點信息按照層級組成最終路徑包括:
當存在親兄弟節點與所述目標節點重復時,則確定目標節點在重復的親兄弟節點中的順序;
將全局唯一節點至目標節點的節點信息按照節點信息組成精簡路徑;
將所述精簡路徑最后添加目標節點在重復的親兄弟節點中的順序。
6.根據權利要求1-5任一項所述的網絡短視頻信息收集方法,其特征在于,節點信息包括:節點名稱、節點屬性名稱以及節點屬性值。
7.根據權利要求6所述的網絡短視頻信息收集方法,其特征在于,形成表示目標節點的節點信息的最終路徑包括:
將目標節點的節點名稱、節點屬性名稱以及節點屬性值按照順序依次組成所述目標節點的最終路徑。
8.根據權利要求1所述的網絡短視頻信息收集方法,其特征在于,按照所述最終路徑獲取所述目標信息對應的目標數據進行存儲包括:
按照所述最終路徑獲取目標信息對應的目標數據;
將目標數據中的音視頻數據存儲至對象存儲服務器中;
將目標數據中的字符數據存儲至MySQL數據庫中;
根據目標數據對網絡短視頻創作者的發表信息進行統計;
建立多個字段下表示多個網絡短視頻創作者發表信息以及對應的統計情況的數據表。
9.根據權利要求1所述的網絡短視頻信息收集方法,其特征在于,在按照所述最終路徑獲取所述目標信息對應的目標數據進行存儲之后,所述網絡短視頻信息收集方法還包括:
按照所述數據表中各個網絡短視頻創作者,每個字段下發表信息以及發表信息的統計情況,對網絡短視頻創造者創造的短視頻進行評分;
按照頻分高低,對所有短視頻進行排序。
10.一種網絡短視頻信息收集裝置,其特征在于,包括:
獲取模塊,用于以腳本方式獲取網絡短視頻的HTML網頁文檔以及獲取待查找的目標信息;
轉化模塊,用于將所述網頁文檔轉化為DOM樹結構;
初始定位模塊,用于使用xpath定位方法,在所述DOM樹結構中定位包含所述目標信息的目標節點,得到根節點到目標節點的初始路徑;
其中,所述初始路徑由節點名稱按照根節點至目標節點的層級依次組成;
判斷模塊,用于根據節點信息,判斷所述目標節點是否為全局唯一節點;
路徑精簡模塊,用于如果所述目標節點是全局唯一節點,則將所述初始路徑進行精簡,以形成表示目標節點的節點信息的最終路徑;
確定模塊,用于如果所述目標節點不是全局唯一節點,則在初始路徑上確定全局唯一節點;
組成模塊,用于將所述全局唯一節點至目標節點的節點信息按照層級組成最終路徑;
存儲模塊,用于按照所述最終路徑獲取所述目標信息對應的目標數據進行存儲。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于樂知未來科技(深圳)有限公司,未經樂知未來科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210417762.6/1.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





