[發明專利]基于文本結構分析的Web文檔摘要的生成方法有效
| 申請號: | 201410090200.0 | 申請日: | 2014-03-12 |
| 公開(公告)號: | CN103853834B | 公開(公告)日: | 2017-02-08 |
| 發明(設計)人: | 沈怡濤;顧君忠;林晨 | 申請(專利權)人: | 華東師范大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 上海藍迪專利商標事務所(普通合伙)31215 | 代理人: | 徐筱梅,張翔 |
| 地址: | 200241 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 文本 結構 分析 web 文檔 摘要 生成 方法 | ||
技術領域
本發明涉及網頁正文提取、自然語言處理、中文自動文摘技術領域,具體地說是一種基于文本結構分析的Web文檔摘要的生成方法。
背景技術
目前,Internet已經成為了人們獲取信息的主要來源。特別是近年來用戶生成內容(UGC)的飛速發展,Internet上的信息正在爆發式增長。搜索引擎雖然能夠根據用戶要求返回搜索結果。但用戶仍然需要從搜索列表中尋找最適合自己需要的網頁,特別是由于互聯網上大量存在的搜索引擎優化和轉載現象,給用戶快速準確的尋找信息帶來了很大困難。
自動文摘系統是利用計算機快速處理Web文檔,從中按一定壓縮比抓取出Web文檔的核心內容,用戶可以從中獲取主題信息并判斷該Web文檔的價值,提高了用戶搜索信息的效率。
Web文檔中大量存在著噪聲信息,如廣告、導航欄、用戶功能條、相關推薦、版權信息等與主題無關的信息。Web文檔是一種半結構化信息,雖然具有一定結構,但語義無法確定。內容在HTML源代碼中的表示和最終渲染得到的頁面會有很大區別。近年來JS和AJAX技術的大量應用,使得網頁數據不再是靜態的HTML代碼,而是動態生成的,甚至針對用戶的操作行為還會產生相應改變。所以如何從Web文檔中抽取出和主題相關的且結構正確的內容,存在著一定的難度。
中文自動文摘系統的研究大約有二十余年的歷史,但目前還處于探索階段,自動摘要的結果還遠遠不能令人滿意。自動摘要的方法主要分為兩大類,基于理解的自動文摘和基于抽取的自動文摘。由于自然語言處理技術仍沒有重大突破,所以基于理解的方法并不能真正的實現自動文摘。
而面向Web文檔的自動摘要技術的研究歷史更短,“與傳統文本相比,網頁的文本結構松散,標題命名相對不那么嚴謹,一個句子結束也可能沒有結束符,并且存在大量的與正文不相關的內容,這給摘要的生成帶來一定的困難。”
發明內容
本發明的目的是提供一種基于文本結構分析的Web文檔摘要的生成方法,該方法綜合運用了視覺特征分析、自然語言分析、文本結構分析等技術,為搜索結果中的每個網頁生成基于語義的,質量較好的網頁摘要,為用戶提供參考。
本發明的目的是這樣實現的:
一種基于文本結構分析的Web文檔摘要的生成方法,它包括以下步驟:
1)輸入待摘要網頁的URL;
2)從待摘要網頁基于視覺分析提取網頁正文,具體包括;
2.1)采用瀏覽器核心對Web文檔進行解析和渲染;
2.2)采用視覺樹(VIPS)算法對網頁進行分塊,得到各區塊的位置、面積;
2.3)對各區塊進行分詞;
2.4)對各區塊分析文本特征;
2.5)對各區塊是否包含正文進行打分;
2.6)將得分高于某一閾值的文本按順序連接起來;
2.7)輸出Web文檔正文;
3)對提取的正文進行基于文本結構分析的自動摘要,具體包括:
3.1)由步驟2)得到網頁正文;
3.2)對正文進行分詞和詞性標注;
3.3)進行文本預處理:識別正文中的基本結構,即識別文章標題,完成句子、段落切分;
3.4)對正文進行語義段切分,通過文本結構分析識別語義發生轉換的位置,作為語義段切分的標志;
3.5)對每個語義段,利用TFIDF的推廣方法,對每個句子在所在語義段中的重要性進行度量,然后根據文摘字數要求,提取出若干句最能代表該語義段主題的句子;
3.6)將各句子按順序連接起來,輸出文摘。
所述步驟2.4)中的文本特征為字數、字號、陳述句數量、非陳述句數量及文本片斷數量。
所述步驟2.5)中所述判斷各區塊是否包含正文進行打分,使用以下公式計算打分的分值:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華東師范大學,未經華東師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410090200.0/2.html,轉載請聲明來源鉆瓜專利網。





