[發明專利]融合DOM拓撲和文本屬性的產品URL自動定位方法有效
| 申請號: | 202011099728.6 | 申請日: | 2020-10-13 |
| 公開(公告)號: | CN112199613B | 公開(公告)日: | 2023-03-03 |
| 發明(設計)人: | 潘麗敏;郜森;羅森林;吳舟婷;周妍汝;董勃 | 申請(專利權)人: | 北京理工大學 |
| 主分類號: | G06F16/955 | 分類號: | G06F16/955;G06F16/951;G06F40/14;G06F16/35 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 融合 dom 拓撲 文本 屬性 產品 url 自動 定位 方法 | ||
本發明涉及融合DOM拓撲和文本屬性的產品URL自動定位方法,屬于計算機與信息科學技術領域。本發明首先將網站轉成DOM解析樹結構,獲取DOM解析樹下各節點的文本屬性并給節點添加標簽屬性;然后通過遞歸遍歷DOM標簽樹,構建出節點帶有產品標簽屬性的樹形圖,將樹形圖轉換為包含DOM解析樹拓撲結構的節點向量集w;并通過doc2vec將各節點下的文本屬性轉換成文本向量h;最后用學習到的融合DOM拓撲信息的節點向量、文本向量[w,h]結合標簽屬性,訓練節點分類模型,完成URL自動定位。本發明融合DOM拓撲、文本屬性,在現有方法的基礎上自動學習頁面的提取規則,提高方法的自適應能力,有效的解決了現有方法魯棒性差、準確率低、工作量大的缺點,具有較高的實用價值和社會價值。
技術領域
本發明涉及融合DOM拓撲和文本屬性的產品URL自動定位方法,屬于計算機與信息科學技術領域。
背景技術
隨著全球化進程的發展,信息通信技術行業供應鏈日益復雜,各國已普遍認識到加強信息通信技術行業供應鏈安全管理的重要性,并開始構建該行業供應鏈網絡。為構建供應鏈網絡需要收集信息通信技術行業相關的企業官網公開的產品信息并完成結構化信息抽取。在構建信息通信技術行業供應鏈的過程中關鍵難點便是對供應商官網上的產品信息進行定位,摒棄無用的信息數據。然而由于程序編碼的不規范以及DHTML和Ajax的盛行導致DOM結構異常復雜,官網上的產品信息難以被精確定位。因此多種方法被提出來解決這個問題,統計分析現有的URL節點定位方法,通常使用方法可歸為兩類:
1.基于規則判定的節點定位方法
基于規則判定的節點定位方法主要依賴于人類專家的參與,通過分析待提取信息的特征制定出信息檢索規則。然后對整個頁面進行檢索,匹配出對應的數據內容。然而該方法對于不同的信息要制定不同的檢索規則,工作量大;另一方面,很難制定出完整全面的規則,使得準確率也比較低。
2.基于網頁結構的節點定位方法
基于網頁結構的定位方法利用了網頁的DOM結構,需要提取的信息視為DOM結構上的一個子節點。之后獲得從根節點到子節點要經過的路徑,根據此路徑便可唯一標識節點位置。然而該方法要求目標網站的網頁結構是固定且一致的,而在實際應用時很難達到這個條件。這導致批量精確定位時出現準確率和效率低、魯棒性差的問題。
綜上所述,現有的URL節點定位方法更多的是依賴于人工參與制定相應的提取規則或者匹配固定xpath路徑下的內容,存在著準確率與效率低、魯棒性差、工作量大的問題。因此亟需一個更加高效、準確、自動的方法來實現官網上產品節點的自動定位。所以本發明提出融合DOM拓撲和文本屬性的產品URL自動定位方法。
發明內容
本發明的目的是解決現有的產品節點定位方法準確率與效率低、魯棒性差、工作量大的問題,針對性的提出了融合DOM拓撲和文本屬性的產品URL自動定位方法。
本發明的設計原理為:本發明首先通過輸入的URL爬取供應商網站的全站內容,轉成DOM解析樹結構,獲取DOM解析樹下各節點的文本屬性并給DOM解析樹對應節點添加標簽屬性(是否為產品節點,是為1,其他均為0);然后通過遞歸遍歷DOM標簽樹,構建出節點帶有產品標簽屬性的樹形圖,將樹形圖轉換為包含DOM解析樹拓撲結構的節點向量集w;并通過doc2vec將各節點下的文本屬性轉換成文本向量h;最后用學習到的融合DOM拓撲信息的節點向量、文本向量[w,h]結合標簽屬性,訓練節點分類模型,完成URL自動定位,實現信息自動批量獲取。
本發明的技術方案是通過如下步驟實現的:
步驟1,解析網頁并獲取拓撲結構,生成標簽屬性樹。
步驟2,DOM樹屬性嵌入。
步驟3,產品節點分類定位。
有益效果
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學,未經北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011099728.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種建筑工程用物料運輸裝置
- 下一篇:一種車床平整度自動檢測與調節裝置





