[發(fā)明專利]確定網(wǎng)站更新信息的方法、裝置、設備和存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202011625737.4 | 申請日: | 2020-12-30 |
| 公開(公告)號: | CN112650910A | 公開(公告)日: | 2021-04-13 |
| 發(fā)明(設計)人: | 徐軍;楊光;許海洋;王藝 | 申請(專利權)人: | 北京百度網(wǎng)訊科技有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/958;G06F16/903;G06F16/906;G06N3/04 |
| 代理公司: | 中科專利商標代理有限責任公司 11021 | 代理人: | 范芳茗 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 確定 網(wǎng)站 更新 信息 方法 裝置 設備 存儲 介質(zhì) | ||
1.一種確定網(wǎng)站更新信息的方法,包括:
抓取目標網(wǎng)站的多個網(wǎng)頁,所述多個網(wǎng)頁包括列表頁和內(nèi)容頁;
從抓取的多個網(wǎng)頁中識別列表頁以及與所識別的列表頁關聯(lián)的內(nèi)容頁;
針對每個識別的列表頁,確定與所識別的列表頁關聯(lián)的內(nèi)容頁的地址的正則表達式;以及
根據(jù)所述正則表達式來確定與所識別的列表頁關聯(lián)的內(nèi)容頁的更新。
2.根據(jù)權利要求1所述的方法,其中,從抓取的多個網(wǎng)頁中識別列表頁以及與所識別的列表頁關聯(lián)的內(nèi)容頁包括:
針對所述多個網(wǎng)頁的網(wǎng)頁標題進行特征提取,獲得第一特征向量;
針對所述多個網(wǎng)頁的除標題以外的網(wǎng)頁其他文本進行特征提取,獲得第二特征向量;
針對所述多個網(wǎng)頁的網(wǎng)頁地址進行特征提取,獲得第三特征向量;以及
利用神經(jīng)網(wǎng)絡模型對所述第一特征向量、所述第二特征向量和所述第三特征向量進行分類處理,從所述多個網(wǎng)頁中識別列表頁以及與所識別的列表頁關聯(lián)的內(nèi)容頁。
3.根據(jù)權利要求2所述的方法,其中,針對所述多個網(wǎng)頁的網(wǎng)頁標題進行特征提取,獲得第一特征向量包括:
利用詞典提取所述網(wǎng)頁標題的特征;以及
基于Embedding詞向量轉(zhuǎn)換將提取的特征轉(zhuǎn)換為所述第一特征向量。
4.根據(jù)權利要求2所述的方法,其中,針對所述多個網(wǎng)頁的除標題以外的網(wǎng)頁其他文本進行特征提取,獲得第二特征向量包括:
以枚舉的方式提取除標題以外的網(wǎng)頁其他文本的特征,并對提取的特征出現(xiàn)的次數(shù)進行統(tǒng)計;以及
基于提取的特征和統(tǒng)計的次數(shù)形成所述第二特征向量。
5.根據(jù)權利要求2所述的方法,其中,針對所述多個網(wǎng)頁的網(wǎng)頁地址進行特征提取,獲得第三特征向量包括:
提取所述網(wǎng)頁地址中的關鍵字符串;以及
基于One-Hot詞向量轉(zhuǎn)換將所述關鍵字符串轉(zhuǎn)換為所述第三特征向量。
6.根據(jù)權利要求2至5中任一項所述的方法,其中,所述神經(jīng)網(wǎng)絡模型包括第一子模型、第二子模型、第三子模型和第四子模型,所述利用神經(jīng)網(wǎng)絡模型對所述第一特征向量、所述第二特征向量和所述第三特征向量進行分類處理包括:
分別使用所述第一子模型、所述第二子模型和所述第三子模型對所述第一特征向量、所述第二特征向量和所述第三特征向量的維度進行調(diào)整,以使所述第一特征向量、所述第二特征向量和所述第三特征向量的維度相同;
將經(jīng)調(diào)整的所述第一特征向量、所述第二特征向量和所述第三特征向量合并為輸入向量矩陣;以及
使用第四子模型對所述輸入向量矩陣進行分類處理。
7.根據(jù)權利要求6所述的方法,其中,所述第一子模型包括雙向長短記憶網(wǎng)絡,所述第二子模型包括全連接神經(jīng)網(wǎng)絡,所述第三子模型包括卷積神經(jīng)網(wǎng)絡,所述第四子模型包括全連接神經(jīng)網(wǎng)絡。
8.根據(jù)權利要求1所述的方法,其中,確定與所識別的列表頁關聯(lián)的內(nèi)容頁的地址的正則表達式包括:
獲取與所識別的列表頁關聯(lián)的內(nèi)容頁的地址的第一集合;
通過對所述第一集合中所包括的地址進行聚合,確定所述第一集合中所包括的地址的字符串的公共部分;以及
基于所確定的公共部分來確定所述正則表達式。
9.根據(jù)權利要求1所述的方法,其中,根據(jù)所述正則表達式來確定與所識別的列表頁關聯(lián)的內(nèi)容頁的更新包括:
基于所述正則表達式,通過爬蟲服務周期地爬取所識別的列表頁來得到與所識別的列表頁關聯(lián)的內(nèi)容頁的地址的第二集合;以及
通過將當前周期爬取得到的第二集合與前一周期爬取得到的第二集合相比較,來確定所述第二集合中新增的內(nèi)容頁。
10.根據(jù)權利要求1所述的方法,其中,抓取目標網(wǎng)站的多個網(wǎng)頁包括:
抓取目標網(wǎng)站的在預設的鏈接層級以內(nèi)的網(wǎng)頁或抓取預設數(shù)量的網(wǎng)頁。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網(wǎng)訊科技有限公司,未經(jīng)北京百度網(wǎng)訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011625737.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設備、信息再現(xiàn)方法和信息再現(xiàn)設備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





