[發(fā)明專利]一種基于DOM樹的招標(biāo)網(wǎng)站中標(biāo)信息抽取方法有效

申請?zhí)枺?/td>	201810301630.0	申請日：	2018-04-04
公開（公告）號：	CN108563729B	公開（公告）日：	2022-04-01
發(fā)明（設(shè)計）人：	陳羽中;林劍;郭昆;張偉智	申請（專利權(quán)）人：	福州大學(xué)
主分類號：	G06F16/958	分類號：	G06F16/958;G06F40/14
代理公司：	福州元創(chuàng)專利商標(biāo)代理有限公司 35100	代理人：	蔡學(xué)俊
地址：	350108 福建省福***	國省代碼：	福建;35
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種基于 dom 招標(biāo) 網(wǎng)站中標(biāo) 信息抽取方法
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明的目的是挺一種基于DOM樹的招標(biāo)網(wǎng)站中標(biāo)信息抽取方法，包括以下步驟：首先通過對招標(biāo)網(wǎng)站的中標(biāo)信息列表頁的采集，得到每一個中標(biāo)項目在列表頁中顯示的標(biāo)題以及中標(biāo)項目詳情頁的鏈接，并通過鏈接得到中標(biāo)項目詳情頁的HTML代碼，上述數(shù)據(jù)構(gòu)成一項中標(biāo)項目數(shù)據(jù)，N項中標(biāo)項目數(shù)據(jù)構(gòu)成用數(shù)據(jù)集；對數(shù)據(jù)集中的每一項中標(biāo)項目數(shù)據(jù)，利用該中標(biāo)項目在列表頁中的標(biāo)題以及對應(yīng)的HTML代碼，創(chuàng)建一棵DOM樹；遍歷數(shù)據(jù)集，生成N棵DOM樹；再根據(jù)N棵DOM樹生成包裝器；最后使用包裝器抽取中標(biāo)項目詳情頁面中的正文內(nèi)容，即中標(biāo)項目信息。該方法能夠在提高中標(biāo)信息抽取準(zhǔn)確率的同時減少任務(wù)總執(zhí)行時間。

技術(shù)領(lǐng)域

本發(fā)明涉及包裝器（Wrapper）技術(shù)領(lǐng)域，特別是一種基于DOM樹的招標(biāo)網(wǎng)站中標(biāo)信息抽取方法。

背景技術(shù)

將信息從網(wǎng)頁中抽取出來, 主要是由包裝器來完成。所謂包裝器其實是一個軟件程序, 這個程序是由已經(jīng)制定好的一系列信息抽取規(guī)則和使用這些規(guī)則的程序構(gòu)成。對于用戶特定信息源的查詢請求, 從頁面的信息源找出相關(guān)有用的數(shù)據(jù)抽取出來, 并轉(zhuǎn)換為用規(guī)定的格式描述的數(shù)據(jù), 返回給用戶。一個包裝器一般針對某一種特定的信息源中的一類頁面。從多個不同信息源中抽取數(shù)據(jù), 需要一套的包裝器程序庫。

目前網(wǎng)絡(luò)上幾乎所有的網(wǎng)頁都或多或少地包含模板, 模板的內(nèi)容包含導(dǎo)航條、組織的標(biāo)志和聯(lián)系信息、廣告條等, 這些信息會頻繁出現(xiàn)在同一個組織所有的網(wǎng)頁中.這些內(nèi)容構(gòu)成了噪音。網(wǎng)頁正文內(nèi)容抽取方法的相關(guān)研究吸引了越多越多專家和學(xué)者的密切關(guān)注，并提出了一些算法。有學(xué)者提出一種基于雙層決策的新聞網(wǎng)頁正文的精確抽取算法,雙層決策是指對新聞網(wǎng)頁正文所在區(qū)域的全局范圍決策和對正文范圍內(nèi)每段文字是否確是正文的局部內(nèi)容決策；有學(xué)者提出一種基于DOM的網(wǎng)頁主題信息自動提取算法，基于DOM規(guī)范，針對HTML 的半結(jié)構(gòu)化特征和缺乏語義描述的不足，提出含有語義信息的STU-DOM 樹模型.將HTML文檔轉(zhuǎn)換為STU-DOM樹，并對其進行基于結(jié)構(gòu)的過濾和基于語義的剪枝，能夠準(zhǔn)確地提取出主題信息；有學(xué)者提出一種基于標(biāo)記窗的網(wǎng)頁正文信息提取方法，通過計算標(biāo)題中的文字和正文比對找出正文所在位置。有學(xué)者提出一種短正文網(wǎng)頁的正文自動化抽取方法，通過文本字數(shù)將網(wǎng)頁劃分為短正文后通過找出文本密度最大的節(jié)點和位置判斷是否為正文。

目前多數(shù)的網(wǎng)頁正文內(nèi)容抽取算法都是以文本密度、標(biāo)簽密度為特征進行分類，并不考慮同類網(wǎng)頁的正文內(nèi)容標(biāo)簽相同內(nèi)容不同的特性，對于正文內(nèi)容短的問題處理結(jié)果不好。

發(fā)明內(nèi)容

本發(fā)明的目的在于提供一種基于DOM樹的招標(biāo)網(wǎng)站中標(biāo)信息抽取方法。

為實現(xiàn)上述目的，本發(fā)明的技術(shù)方案是：一種基于DOM樹的招標(biāo)網(wǎng)站中標(biāo)信息抽取方法，具體包括以下步驟：一種基于DOM樹的招標(biāo)網(wǎng)站中標(biāo)信息抽取方法，其特征在于，所述方法包括以下步驟：步驟A：通過對招標(biāo)網(wǎng)站的中標(biāo)信息列表頁的采集，得到每一個中標(biāo)項目在列表頁中顯示的標(biāo)題以及中標(biāo)項目詳情頁的鏈接，并通過鏈接得到中標(biāo)項目詳情頁的HTML代碼，中標(biāo)項目在列表頁中的標(biāo)題以及對應(yīng)中標(biāo)項目詳情頁的HTML代碼構(gòu)成一項中標(biāo)項目數(shù)據(jù)，N 項中標(biāo)項目數(shù)據(jù)構(gòu)成用于生成包裝器的數(shù)據(jù)集；N 為不小于1的自然數(shù)；步驟B：對數(shù)據(jù)集中的每一項中標(biāo)項目數(shù)據(jù)，利用該中標(biāo)項目在列表頁中的標(biāo)題以及對應(yīng)中標(biāo)項目詳情頁的HTML代碼，創(chuàng)建一棵DOM樹，遍歷步驟A得到的包含N項中標(biāo)項目數(shù)據(jù)的數(shù)據(jù)集后，生成N棵DOM樹；步驟C：使用步驟B創(chuàng)建的N棵DOM樹生成包裝器Wrapper；步驟D：使用步驟C生成的包裝器抽取招標(biāo)網(wǎng)站的中標(biāo)項目詳情頁面中的正文內(nèi)容，即中標(biāo)項目信息。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于福州大學(xué)，未經(jīng)福州大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201810301630.0/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06F 電數(shù)字數(shù)據(jù)處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】