[發明專利]基于文本結構權重的主題區域識別方法無效

申請號：	201110302004.1	申請日：	2011-09-28
公開（公告）號：	CN102306204A	公開（公告）日：	2012-01-04
發明（設計）人：	徐武平;徐愛萍;楊少博	申請（專利權）人：	武漢大學
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	武漢科皓知識產權代理事務所(特殊普通合伙) 42222	代理人：	薛玲
地址：	430072 湖***	國省代碼：	湖北;42
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于文本結構權重主題區域識別方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于文本結構權重的主題區域識別方法，其特征在于，包括以下步驟：

步驟1，將待識別Web網頁轉換成標簽樹，具體通過以下步驟實現，

步驟1.1，通過對待識別Web網頁的HTML文檔進行字符掃描，識別出起始節點、結束節點、全結構節點和文本節點；

所述起始節點是以字符“<”開始，以字符“>”為結束，且這兩者之間不存在字符“<”和“>”的字符串；

所述結束節點是以字符“</”開始，以字符“>”為結束，且這兩者之間不存在字符“<”、“>”和“/”的字符串；

所述全結構節點是以字符“<”開始，以字符“/>”為結束，且這兩者之間不存在字符“<”、“>”和“/”的字符串；

所述文本節點是以上三種節點以外的字符串；

步驟1.2，采用解析器，依據步驟1.1識別出的起始節點、結束節點、全結構節點和文本節點進行標簽樹的構建，得到的標簽樹記為A；構建過程利用堆棧操作來確定各節點的層次關系，包括以下堆棧操作，

當解析器發現一個起始節點時，觸發入棧操作和在當前標簽樹中新建標簽操作，

當解析器發現一個結束節點時，觸發退棧操作，

當解析器發現一個全結構節點時，觸發入棧操作，同時更新標簽樹，在更新標簽樹完成后立刻退棧操作；

當解析器發現一個文本節點時，觸發入棧操作，入棧操作后立刻退棧操作；

步驟2，在步驟1所得標簽樹A中搜索相似區域，并進行去鏈接預處理，得到標簽樹B，具體通過以下步驟實現，

步驟2.1，在步驟1所得標簽樹A中搜索相似區域；所述相似區域是由一組相似節點組成的，相似節點是標簽樹A中滿足以下特性的節點，

（1）所有的節點共同擁有同一個父節點；

（2）所有節點是相鄰的；

（3）相似節點是子樹的根節點或葉子節點；

（4）與同一區域中的其他節點的相似度大于預設的閾值a；

步驟2.2，在步驟2.1搜索到的所有相似區域中識別語義鏈接塊，并將識別出的語義鏈接塊從標簽樹A中摘除，得到標簽樹B；所述語義鏈接塊是指由鏈接組成的，在視覺上呈列表狀，每一項表現為超級鏈接的網頁區域；

步驟3，對步驟2所得標簽樹B進行主題內容抽取，具體通過以下步驟實現，

步驟3.1，求出標簽樹B中所有節點的文本結構權重，找出某棵子樹鏈下文本結構權重值最大的節點，該節點所在相似區域即主題區域，該節點記為主題區域節點C；所述文本結構權重是指文本在相似區域中所占的比重；

步驟3.2，對步驟3.1所得主題區域進行去噪，包括兩個步驟；

步驟3.2.1，獲取步驟3.1所得主題區域節點C的子樹所包含的所有文本節點的長度，其中最大長度記為maxlength；

步驟3.2.2，遍歷主題區域節點C的子樹，根據最大長度maxlength對子樹中每一個文本節點的長度計算歸一化值，并與預設的閾值K比較；如果不小于預設的閾值K則保留，否則從主題區域節點C的子樹中摘除該文本節點；

步驟3.3，對步驟3.2所得去噪后的主題區域所對應的節點輸出，即輸出最底層葉子節點的文本內容，得到待識別Web網頁的主題內容。

2.如權利要求1所述基于文本結構權重的主題區域識別方法，其特征在于：步驟1.2中，標簽樹的具體構建方式包括以下步驟，

步驟1.2.1，聲明一個解析器實例和一個單例模式堆棧實例，并從待識別Web網頁的HTML文檔中讀取一個節點；

步驟1.2.2，如果讀取的節點是結束節點、全結構節點或者文本節點，則將該節點出棧，然后進入步驟1.2.3；否則，轉步驟1.2.4；

步驟1.2.3，層次值減一，并將父節點指針指向步驟1.2.2出棧的節點的父節點，更新標簽樹；

步驟1.2.4，如果讀取的節點是起始節點、全結構節點或者文本節點，則聲明一個新的堆棧項，并將該節點入棧，然后進入步驟1.2.5；否則，進入步驟1.2.7；

步驟1.2.5，層次值加一，同時將步驟1.2.4入棧的節點插入父節點指針當前指向的節點的孩子集中；

步驟1.2.6，將當前節點指針指向步驟1.2.4入棧的節點，并更新標簽樹；

步驟1.2.7，從待識別Web網頁的HTML文檔中讀取下一個節點，重復步驟1.2.2至步驟1.2.6，直到待識別Web網頁的HTML文檔解析完成，構建得到的標簽樹記為A。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于武漢大學，未經武漢大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201110302004.1/1.html，轉載請聲明來源鉆瓜專利網。

專利分類

專利文獻下載