[發明專利]一種基于期望列表的網頁內容抽取方法在審

申請號：	201310362840.8	申請日：	2013-08-16
公開（公告）號：	CN103440294A	公開（公告）日：	2013-12-11
發明（設計）人：	王佰玲;謝虎成;黃俊恒;宮名;劉揚;詹春燕	申請（專利權）人：	哈爾濱工業大學(威海)
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	暫無信息	代理人：	暫無信息
地址：	264209***	國省代碼：	山東;37
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于期望列表網頁內容抽取方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于期望列表的網頁內容抽取方法，其特征在于，包括以下步驟：

a.一開始，將狀態設置為PARSE_BEGIN(b)；

b.在PARSE_BEGIN中，清理所有列表的內容，準備進行新一輪的分析，并將所有XPath鏈表的第一個節點加入期望列表中，并將狀態設置為PARSE_TAG_BEG(c)；

c.在PARSE_TAG_BEG中，查找第一個出現的′<′字符，并根據條件轉到相應的狀態：

如果開頭是<!--，表明此節點是注釋節點，轉到PARSE_COMMENT_BEG(1)，

如果開頭是<／，則出棧并轉入到PARSE_CHILD_TEXT(i)狀態.表明一個子節點的結束，

如果開頭是<!**，表明此節點是動作節點，不必分析，則轉入PARSE_IGNORE(j)狀態，

默認轉到PARSE_TAG狀態(d)；

d.在PARSE_TAG狀態中，掃描出一個不以空格′>′，′/′結束的字符串.并且查找期望列表中是否有匹配的項.如果有則看有沒有下一個XPath節點.沒有的話則表示查找完成.通知上層有結果.有的話則把下一個節點加入期望列表，

另外根據期望列表中是否要求處理屬性來決定轉移是到PARSE_ATTR_BEG(f)還是PARSE_TAG_END(e)；

e.在PARSE_TAG_END中，掃描到′>′字符.然后執行step_in操作.期望列表入棧，表明進入一個子節點.并轉移到PARSE_CHILD_TEXT(i)狀態；

f.在PARSE_ATTR_BEG狀態直接轉移到PARSE_ATTR(g)狀態；

g.在PARSE_ATTR狀態中如果出現′>′則轉為PARSE_ATTR_END(h).否則繼續掃描一個屬性，狀態不變；

h.在PARSE_ATTR_END狀態中，清理臨時變量，并轉為PARSE_TAG_END(e)狀態；

i.在PARSE_CHILD_TEXT狀態中，掃描到′<′符號為止，中間的內容就是文本節點，查看是否有合適的文本搜集器，并轉為PARSE_TAG_BEG(c)狀態；

j.在PARSE_IGNORE狀態中，掃描到>符號為止，并直接轉為PARSE_TAG_BEG(c)狀態；

k.在PARSE_PASS狀態中，掃描到匹配的′<[tag]′字符串，并轉為PARSE_TAG_BEG(c)狀態；

l.在PARSE_COMMENT_BEG_PARSE_COMMENT?PARSE_COMMENT_END中掃描出一個標簽，并轉為PARSE_TAG_BEG(c)狀態；

m.當掃描到文本的最后，停止掃描，分析完成。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學(威海)，未經哈爾濱工業大學(威海)許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201310362840.8/1.html，轉載請聲明來源鉆瓜專利網。

專利分類

專利文獻下載