[發(fā)明專利]一種基于DOM樹的招標(biāo)網(wǎng)站中標(biāo)信息抽取方法有效
| 申請?zhí)枺?/td> | 201810301630.0 | 申請日: | 2018-04-04 |
| 公開(公告)號: | CN108563729B | 公開(公告)日: | 2022-04-01 |
| 發(fā)明(設(shè)計)人: | 陳羽中;林劍;郭昆;張偉智 | 申請(專利權(quán))人: | 福州大學(xué) |
| 主分類號: | G06F16/958 | 分類號: | G06F16/958;G06F40/14 |
| 代理公司: | 福州元創(chuàng)專利商標(biāo)代理有限公司 35100 | 代理人: | 蔡學(xué)俊 |
| 地址: | 350108 福建省福*** | 國省代碼: | 福建;35 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 dom 招標(biāo) 網(wǎng)站 中標(biāo) 信息 抽取 方法 | ||
本發(fā)明的目的是挺一種基于DOM樹的招標(biāo)網(wǎng)站中標(biāo)信息抽取方法,包括以下步驟:首先通過對招標(biāo)網(wǎng)站的中標(biāo)信息列表頁的采集,得到每一個中標(biāo)項目在列表頁中顯示的標(biāo)題以及中標(biāo)項目詳情頁的鏈接,并通過鏈接得到中標(biāo)項目詳情頁的HTML代碼,上述數(shù)據(jù)構(gòu)成一項中標(biāo)項目數(shù)據(jù),N項中標(biāo)項目數(shù)據(jù)構(gòu)成用數(shù)據(jù)集;對數(shù)據(jù)集中的每一項中標(biāo)項目數(shù)據(jù),利用該中標(biāo)項目在列表頁中的標(biāo)題以及對應(yīng)的HTML代碼,創(chuàng)建一棵DOM樹;遍歷數(shù)據(jù)集,生成N棵DOM樹;再根據(jù)N棵DOM樹生成包裝器;最后使用包裝器抽取中標(biāo)項目詳情頁面中的正文內(nèi)容,即中標(biāo)項目信息。該方法能夠在提高中標(biāo)信息抽取準(zhǔn)確率的同時減少任務(wù)總執(zhí)行時間。
技術(shù)領(lǐng)域
本發(fā)明涉及包裝器(Wrapper)技術(shù)領(lǐng)域,特別是一種基于DOM樹的招標(biāo)網(wǎng)站中標(biāo)信息抽取方法。
背景技術(shù)
將信息從網(wǎng)頁中抽取出來, 主要是由包裝器來完成。所謂包裝器其實是一個軟件程序, 這個程序是由已經(jīng)制定好的一系列信息抽取規(guī)則和使用這些規(guī)則的程序構(gòu)成。對于用戶特定信息源的查詢請求, 從頁面的信息源找出相關(guān)有用的數(shù)據(jù)抽取出來, 并轉(zhuǎn)換為用規(guī)定的格式描述的數(shù)據(jù), 返回給用戶。一個包裝器一般針對某一種特定的信息源中的一類頁面。從多個不同信息源中抽取數(shù)據(jù), 需要一套的包裝器程序庫。
目前網(wǎng)絡(luò)上幾乎所有的網(wǎng)頁都或多或少地包含模板, 模板的內(nèi)容包含導(dǎo)航條、組織的標(biāo)志和聯(lián)系信息、廣告條等, 這些信息會頻繁出現(xiàn)在同一個組織所有的網(wǎng)頁中.這些內(nèi)容構(gòu)成了噪音。網(wǎng)頁正文內(nèi)容抽取方法的相關(guān)研究吸引了越多越多專家和學(xué)者的密切關(guān)注,并提出了一些算法。有學(xué)者提出一種基于雙層決策的新聞網(wǎng)頁正文的精確抽取算法,雙層決策是指對新聞網(wǎng)頁正文所在區(qū)域的全局范圍決策和對正文范圍內(nèi)每段文字是否確是正文的局部內(nèi)容決策;有學(xué)者提出一種基于DOM的網(wǎng)頁主題信息自動提取算法,基于DOM規(guī)范,針對HTML 的半結(jié)構(gòu)化特征和缺乏語義描述的不足,提出含有語義信息的STU-DOM 樹模型.將HTML文檔轉(zhuǎn)換為STU-DOM樹,并對其進行基于結(jié)構(gòu)的過濾和基于語義的剪枝,能夠準(zhǔn)確地提取出主題信息;有學(xué)者提出一種基于標(biāo)記窗的網(wǎng)頁正文信息提取方法,通過計算標(biāo)題中的文字和正文比對找出正文所在位置。有學(xué)者提出一種短正文網(wǎng)頁的正文自動化抽取方法,通過文本字數(shù)將網(wǎng)頁劃分為短正文后通過找出文本密度最大的節(jié)點和位置判斷是否為正文。
目前多數(shù)的網(wǎng)頁正文內(nèi)容抽取算法都是以文本密度、標(biāo)簽密度為特征進行分類,并不考慮同類網(wǎng)頁的正文內(nèi)容標(biāo)簽相同內(nèi)容不同的特性,對于正文內(nèi)容短的問題處理結(jié)果不好。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于DOM樹的招標(biāo)網(wǎng)站中標(biāo)信息抽取方法。
為實現(xiàn)上述目的,本發(fā)明的技術(shù)方案是:一種基于DOM樹的招標(biāo)網(wǎng)站中標(biāo)信息抽取方法,具體包括以下步驟:一種基于DOM樹的招標(biāo)網(wǎng)站中標(biāo)信息抽取方法,其特征在于,所述方法包括以下步驟:步驟A:通過對招標(biāo)網(wǎng)站的中標(biāo)信息列表頁的采集,得到每一個中標(biāo)項目在列表頁中顯示的標(biāo)題以及中標(biāo)項目詳情頁的鏈接,并通過鏈接得到中標(biāo)項目詳情頁的HTML代碼,中標(biāo)項目在列表頁中的標(biāo)題以及對應(yīng)中標(biāo)項目詳情頁的HTML代碼構(gòu)成一項中標(biāo)項目數(shù)據(jù),N 項中標(biāo)項目數(shù)據(jù)構(gòu)成用于生成包裝器的數(shù)據(jù)集;N 為不小于1的自然數(shù);步驟B:對數(shù)據(jù)集中的每一項中標(biāo)項目數(shù)據(jù),利用該中標(biāo)項目在列表頁中的標(biāo)題以及對應(yīng)中標(biāo)項目詳情頁的HTML代碼,創(chuàng)建一棵DOM樹,遍歷步驟A得到的包含N項中標(biāo)項目數(shù)據(jù)的數(shù)據(jù)集后,生成N棵DOM樹;步驟C:使用步驟B創(chuàng)建的N棵DOM樹生成包裝器Wrapper;步驟D:使用步驟C生成的包裝器抽取招標(biāo)網(wǎng)站的中標(biāo)項目詳情頁面中的正文內(nèi)容,即中標(biāo)項目信息。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于福州大學(xué),未經(jīng)福州大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810301630.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種用于網(wǎng)頁測試的測試目標(biāo)處理方法和裝置
- 一種網(wǎng)頁內(nèi)容提取方法和設(shè)備
- 一種渲染和增量更新網(wǎng)頁的方法
- 一種基于虛擬DOM的前端元素維護方法
- 一種數(shù)據(jù)驅(qū)動的頁面更新方法和裝置
- 加載DOM節(jié)點數(shù)據(jù)的方法、裝置、計算機設(shè)備及存儲介質(zhì)
- 一種DOM沙盒環(huán)境的創(chuàng)建方法、裝置、介質(zhì)和電子設(shè)備
- 實現(xiàn)水印的方法、裝置、設(shè)備及計算機可讀介質(zhì)
- 網(wǎng)頁數(shù)據(jù)的監(jiān)控方法、裝置、終端設(shè)備及存儲介質(zhì)
- 表格數(shù)據(jù)處理方法、裝置、電子設(shè)備和存儲介質(zhì)
- 與HTTP網(wǎng)站關(guān)聯(lián)的WAP網(wǎng)站
- 基于網(wǎng)站指紋推送白名單的方法及系統(tǒng)
- 網(wǎng)站漏洞檢測方法和系統(tǒng)
- 一種網(wǎng)站建立方法、裝置及計算設(shè)備
- 一種網(wǎng)站識別方法及裝置
- 網(wǎng)站風(fēng)險評估方法及裝置
- 網(wǎng)站版權(quán)時間的管理方法、裝置、存儲介質(zhì)及設(shè)備
- 一種網(wǎng)站開發(fā)系統(tǒng)及方法
- 一種基于網(wǎng)站地圖的指紋識別方法
- 網(wǎng)站應(yīng)用框架指紋識別的方法、設(shè)備、裝置及介質(zhì)





