[發明專利]基于文本結構權重的主題區域識別方法無效
| 申請號: | 201110302004.1 | 申請日: | 2011-09-28 |
| 公開(公告)號: | CN102306204A | 公開(公告)日: | 2012-01-04 |
| 發明(設計)人: | 徐武平;徐愛萍;楊少博 | 申請(專利權)人: | 武漢大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 薛玲 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 文本 結構 權重 主題 區域 識別 方法 | ||
1.一種基于文本結構權重的主題區域識別方法,其特征在于,包括以下步驟:
步驟1,將待識別Web網頁轉換成標簽樹,具體通過以下步驟實現,
步驟1.1,通過對待識別Web網頁的HTML文檔進行字符掃描,識別出起始節點、結束節點、全結構節點和文本節點;
所述起始節點是以字符“<”開始,以字符“>”為結束,且這兩者之間不存在字符“<”和“>”的字符串;
所述結束節點是以字符“</”開始,以字符“>”為結束,且這兩者之間不存在字符“<”、“>”和“/”的字符串;
所述全結構節點是以字符“<”開始,以字符“/>”為結束,且這兩者之間不存在字符“<”、“>”和“/”的字符串;
所述文本節點是以上三種節點以外的字符串;
步驟1.2,采用解析器,依據步驟1.1識別出的起始節點、結束節點、全結構節點和文本節點進行標簽樹的構建,得到的標簽樹記為A;構建過程利用堆棧操作來確定各節點的層次關系,包括以下堆棧操作,
當解析器發現一個起始節點時,觸發入棧操作和在當前標簽樹中新建標簽操作,
當解析器發現一個結束節點時,觸發退棧操作,
當解析器發現一個全結構節點時,觸發入棧操作,同時更新標簽樹,在更新標簽樹完成后立刻退棧操作;
當解析器發現一個文本節點時,觸發入棧操作,入棧操作后立刻退棧操作;
步驟2,在步驟1所得標簽樹A中搜索相似區域,并進行去鏈接預處理,得到標簽樹B,具體通過以下步驟實現,
步驟2.1,在步驟1所得標簽樹A中搜索相似區域;所述相似區域是由一組相似節點組成的,相似節點是標簽樹A中滿足以下特性的節點,
(1)所有的節點共同擁有同一個父節點;
(2)所有節點是相鄰的;
(3)相似節點是子樹的根節點或葉子節點;
(4)與同一區域中的其他節點的相似度大于預設的閾值a;
步驟2.2,在步驟2.1搜索到的所有相似區域中識別語義鏈接塊,并將識別出的語義鏈接塊從標簽樹A中摘除,得到標簽樹B;所述語義鏈接塊是指由鏈接組成的,在視覺上呈列表狀,每一項表現為超級鏈接的網頁區域;
步驟3,對步驟2所得標簽樹B進行主題內容抽取,具體通過以下步驟實現,
步驟3.1,求出標簽樹B中所有節點的文本結構權重,找出某棵子樹鏈下文本結構權重值最大的節點,該節點所在相似區域即主題區域,該節點記為主題區域節點C;所述文本結構權重是指文本在相似區域中所占的比重;
步驟3.2,對步驟3.1所得主題區域進行去噪,包括兩個步驟;
步驟3.2.1,獲取步驟3.1所得主題區域節點C的子樹所包含的所有文本節點的長度,其中最大長度記為maxlength;
步驟3.2.2,遍歷主題區域節點C的子樹,根據最大長度maxlength對子樹中每一個文本節點的長度計算歸一化值,并與預設的閾值K比較;如果不小于預設的閾值K則保留,否則從主題區域節點C的子樹中摘除該文本節點;
步驟3.3,對步驟3.2所得去噪后的主題區域所對應的節點輸出,即輸出最底層葉子節點的文本內容,得到待識別Web網頁的主題內容。
2.如權利要求1所述基于文本結構權重的主題區域識別方法,其特征在于:步驟1.2中,標簽樹的具體構建方式包括以下步驟,
步驟1.2.1,聲明一個解析器實例和一個單例模式堆棧實例,并從待識別Web網頁的HTML文檔中讀取一個節點;
步驟1.2.2,如果讀取的節點是結束節點、全結構節點或者文本節點,則將該節點出棧,然后進入步驟1.2.3;否則,轉步驟1.2.4;
步驟1.2.3,層次值減一,并將父節點指針指向步驟1.2.2出棧的節點的父節點,更新標簽樹;
步驟1.2.4,如果讀取的節點是起始節點、全結構節點或者文本節點,則聲明一個新的堆棧項,并將該節點入棧,然后進入步驟1.2.5;否則,進入步驟1.2.7;
步驟1.2.5,層次值加一,同時將步驟1.2.4入棧的節點插入父節點指針當前指向的節點的孩子集中;
步驟1.2.6,將當前節點指針指向步驟1.2.4入棧的節點,并更新標簽樹;
步驟1.2.7,從待識別Web網頁的HTML文檔中讀取下一個節點,重復步驟1.2.2至步驟1.2.6,直到待識別Web網頁的HTML文檔解析完成,構建得到的標簽樹記為A。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢大學,未經武漢大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110302004.1/1.html,轉載請聲明來源鉆瓜專利網。





