[發明專利]基于文本結構分析的Web文檔摘要的生成方法有效

申請號：	201410090200.0	申請日：	2014-03-12
公開（公告）號：	CN103853834B	公開（公告）日：	2017-02-08
發明（設計）人：	沈怡濤;顧君忠;林晨	申請（專利權）人：	華東師范大學
主分類號：	G06F17/30	分類號：	G06F17/30;G06F17/27
代理公司：	上海藍迪專利商標事務所(普通合伙)31215	代理人：	徐筱梅,張翔
地址：	200241 ***	國省代碼：	上海;31
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于文本結構分析 web 文檔摘要生成方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明涉及網頁正文提取、自然語言處理、中文自動文摘技術領域，具體地說是一種基于文本結構分析的Web文檔摘要的生成方法。

背景技術

目前，Internet已經成為了人們獲取信息的主要來源。特別是近年來用戶生成內容（UGC）的飛速發展，Internet上的信息正在爆發式增長。搜索引擎雖然能夠根據用戶要求返回搜索結果。但用戶仍然需要從搜索列表中尋找最適合自己需要的網頁，特別是由于互聯網上大量存在的搜索引擎優化和轉載現象，給用戶快速準確的尋找信息帶來了很大困難。

自動文摘系統是利用計算機快速處理Web文檔，從中按一定壓縮比抓取出Web文檔的核心內容，用戶可以從中獲取主題信息并判斷該Web文檔的價值，提高了用戶搜索信息的效率。

Web文檔中大量存在著噪聲信息，如廣告、導航欄、用戶功能條、相關推薦、版權信息等與主題無關的信息。Web文檔是一種半結構化信息，雖然具有一定結構，但語義無法確定。內容在HTML源代碼中的表示和最終渲染得到的頁面會有很大區別。近年來JS和AJAX技術的大量應用，使得網頁數據不再是靜態的HTML代碼，而是動態生成的，甚至針對用戶的操作行為還會產生相應改變。所以如何從Web文檔中抽取出和主題相關的且結構正確的內容，存在著一定的難度。

中文自動文摘系統的研究大約有二十余年的歷史，但目前還處于探索階段，自動摘要的結果還遠遠不能令人滿意。自動摘要的方法主要分為兩大類，基于理解的自動文摘和基于抽取的自動文摘。由于自然語言處理技術仍沒有重大突破，所以基于理解的方法并不能真正的實現自動文摘。

而面向Web文檔的自動摘要技術的研究歷史更短，“與傳統文本相比，網頁的文本結構松散，標題命名相對不那么嚴謹，一個句子結束也可能沒有結束符，并且存在大量的與正文不相關的內容，這給摘要的生成帶來一定的困難。”

發明內容

本發明的目的是提供一種基于文本結構分析的Web文檔摘要的生成方法，該方法綜合運用了視覺特征分析、自然語言分析、文本結構分析等技術，為搜索結果中的每個網頁生成基于語義的，質量較好的網頁摘要，為用戶提供參考。

本發明的目的是這樣實現的：

一種基于文本結構分析的Web文檔摘要的生成方法，它包括以下步驟：

1）輸入待摘要網頁的URL；

2）從待摘要網頁基于視覺分析提取網頁正文，具體包括；

2.1）采用瀏覽器核心對Web文檔進行解析和渲染；

2.2）采用視覺樹(VIPS)算法對網頁進行分塊，得到各區塊的位置、面積；

2.3）對各區塊進行分詞；

2.4）對各區塊分析文本特征；