[發明專利]一種基于期望列表的網頁內容抽取方法在審
| 申請號: | 201310362840.8 | 申請日: | 2013-08-16 |
| 公開(公告)號: | CN103440294A | 公開(公告)日: | 2013-12-11 |
| 發明(設計)人: | 王佰玲;謝虎成;黃俊恒;宮名;劉揚;詹春燕 | 申請(專利權)人: | 哈爾濱工業大學(威海) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 264209*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 期望 列表 網頁 內容 抽取 方法 | ||
1.一種基于期望列表的網頁內容抽取方法,其特征在于,包括以下步驟:
a.一開始,將狀態設置為PARSE_BEGIN(b);
b.在PARSE_BEGIN中,清理所有列表的內容,準備進行新一輪的分析,并將所有XPath鏈表的第一個節點加入期望列表中,并將狀態設置為PARSE_TAG_BEG(c);
c.在PARSE_TAG_BEG中,查找第一個出現的′<′字符,并根據條件轉到相應的狀態:
如果開頭是<!--,表明此節點是注釋節點,轉到PARSE_COMMENT_BEG(1),
如果開頭是</,則出棧并轉入到PARSE_CHILD_TEXT(i)狀態.表明一個子節點的結束,
如果開頭是<!**,表明此節點是動作節點,不必分析,則轉入PARSE_IGNORE(j)狀態,
默認轉到PARSE_TAG狀態(d);
d.在PARSE_TAG狀態中,掃描出一個不以空格′>′,′/′結束的字符串.并且查找期望列表中是否有匹配的項.如果有則看有沒有下一個XPath節點.沒有的話則表示查找完成.通知上層有結果.有的話則把下一個節點加入期望列表,
另外根據期望列表中是否要求處理屬性來決定轉移是到PARSE_ATTR_BEG(f)還是PARSE_TAG_END(e);
e.在PARSE_TAG_END中,掃描到′>′字符.然后執行step_in操作.期望列表入棧,表明進入一個子節點.并轉移到PARSE_CHILD_TEXT(i)狀態;
f.在PARSE_ATTR_BEG狀態直接轉移到PARSE_ATTR(g)狀態;
g.在PARSE_ATTR狀態中如果出現′>′則轉為PARSE_ATTR_END(h).否則繼續掃描一個屬性,狀態不變;
h.在PARSE_ATTR_END狀態中,清理臨時變量,并轉為PARSE_TAG_END(e)狀態;
i.在PARSE_CHILD_TEXT狀態中,掃描到′<′符號為止,中間的內容就是文本節點,查看是否有合適的文本搜集器,并轉為PARSE_TAG_BEG(c)狀態;
j.在PARSE_IGNORE狀態中,掃描到>符號為止,并直接轉為PARSE_TAG_BEG(c)狀態;
k.在PARSE_PASS狀態中,掃描到匹配的′<[tag]′字符串,并轉為PARSE_TAG_BEG(c)狀態;
l.在PARSE_COMMENT_BEG_PARSE_COMMENT?PARSE_COMMENT_END中掃描出一個<!---->標簽,并轉為PARSE_TAG_BEG(c)狀態;
m.當掃描到文本的最后,停止掃描,分析完成。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學(威海),未經哈爾濱工業大學(威海)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310362840.8/1.html,轉載請聲明來源鉆瓜專利網。





