[發明專利]融合DOM拓撲和文本屬性的產品URL自動定位方法有效
| 申請號: | 202011099728.6 | 申請日: | 2020-10-13 |
| 公開(公告)號: | CN112199613B | 公開(公告)日: | 2023-03-03 |
| 發明(設計)人: | 潘麗敏;郜森;羅森林;吳舟婷;周妍汝;董勃 | 申請(專利權)人: | 北京理工大學 |
| 主分類號: | G06F16/955 | 分類號: | G06F16/955;G06F16/951;G06F40/14;G06F16/35 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 融合 dom 拓撲 文本 屬性 產品 url 自動 定位 方法 | ||
1.基于融合DOM拓撲和文本屬性的產品URL自動定位方法,其特征在于所述方法包括如下步驟:
步驟1,模型使用Beautifulsoup庫獲取網頁的DOM解析樹結構,獲取網頁的根節點,通過逐層遞歸搜索解析樹的所有節點,并保存DOM解析樹結構以及對應節點下的文本信息;
步驟2,生成采樣樣本前,讀取各節點類型,根據節點類型與所處層數對解析樹進行修剪,并為節點分配權重,獲取新的解析樹,采用隨機游走策略對節點進行采樣,并對采樣數據進行skip-gram,從而將網站的DOM解析樹結構轉換為包含DOM解析樹拓撲結構的節點向量集w,并使用doc2vec將各節點對應的文本屬性轉換成文本向量h;
步驟3,在對分類模型進行訓練前,涉及到節點向量與文本向量的生成,以及節點向量與文本向量的拼接,將節點向量與文本向量進行拼接,生成含有網頁拓撲信息與文本特征的屬性向量,用學習到的屬性向量[w,h]結合各節點標簽屬性,訓練節點分類模型,實現URL產品節點自動定位。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學,未經北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011099728.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種建筑工程用物料運輸裝置
- 下一篇:一種車床平整度自動檢測與調節裝置





