[發明專利]一種半結構化Web信息抽取技術的方法在審
| 申請號: | 201410540602.6 | 申請日: | 2014-10-14 |
| 公開(公告)號: | CN105574016A | 公開(公告)日: | 2016-05-11 |
| 發明(設計)人: | 不公告發明人 | 申請(專利權)人: | 鎮江鼎拓科技信息有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 212009 江蘇省鎮江市鎮*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 結構 web 信息 抽取 技術 方法 | ||
1.一種半結構化Web信息抽取技術的方法其主要是基于HTML文檔的半結構化Web信息抽取出來,將它們轉換為結構化數據,并且保存到關系數據庫。
2.根據權利要求1所述則進行數據獲取;系統采用GET方式代替POST方式解決網站的登錄和參數傳遞問題。
3.根據權利要求2所述系統首先根據用戶指定的URL獲取樣例網頁數據并且將該網頁利用HTMLTidy轉換為XML(實際為XHTML),并且利用XMLParser將該XML文檔解析為DOM(DocumentObjectModel)樹,這樣DOM樹就成為Web網頁在系統內部的表示方式。
4.根據權利要求3所述該ETL工具實現了結構化數據和半結構化的文本數據的抽取轉換和加載工作。
5.根據權利要求4所述中采用了HTMLTiay更加將HTML文檔轉換為XHTML文檔,而且XHTML文檔為XML的子集,符合XML規范,時格式良好的(Well.formed)。
6.目的表結構創建;獲取目的表的元數據定義信息,然后執行如下步驟:
a.根據Database_Server信息連接到目的數據庫服務器;
b.根據目的表的定義信息(TaNe_lnformation)(在1EPDF中),生成SQL建表語句(CREATETABLE);
c.執行SQLCREATETABLE語句。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鎮江鼎拓科技信息有限公司,未經鎮江鼎拓科技信息有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410540602.6/1.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





