[發明專利]一種基于快速傅里葉變換的網頁正文提取方法無效
| 申請號: | 200710063182.7 | 申請日: | 2007-01-30 |
| 公開(公告)號: | CN101237465A | 公開(公告)日: | 2008-08-06 |
| 發明(設計)人: | 王勁林;李蕾;李曄;白鶴;胡晶晶 | 申請(專利權)人: | 中國科學院聲學研究所 |
| 主分類號: | H04L29/08 | 分類號: | H04L29/08;H04L27/26;G06F17/30 |
| 代理公司: | 北京泛華偉業知識產權代理有限公司 | 代理人: | 高存秀 |
| 地址: | 100080北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 快速 傅里葉變換 網頁 正文 提取 方法 | ||
技術領域
本發明涉及文字信息處理,特別涉及一種基于快速傅里葉變換的網頁正文提取方法。
背景技術
隨著Internet的不斷發展,Web頁面數量的大幅度增加,網頁已經成為巨大的、分布廣泛的信息源。許多信息包含在浩如煙海的Web中,如何幫助人們迅速提取有效信息,成為一個非常重要的問題。
針對HTML網頁特點,需要利用網頁結構布局信息對網頁進行區域分割,模擬IE瀏覽器的顯示方式,對網頁進行解析。系統根據人類視覺原理,把網頁解析處理的結果進行分塊,然后根據用戶需求,提取用戶需要的相關網頁塊的內容。因此網頁分割是從網頁中提取有效信息的一個常用手段,當前比較常用的網頁分割方法主要有如下幾種:
1、基于位置關系的分割法:該方法利用網頁頁面的布局進行分塊,將一個網頁分成上、下、左、右和中間5個部分,再根據這5個部分的特征進行分類。但實際的網頁結構要復雜的多,這種基于網頁布局的方法并不能適用于所有的網頁;而且這種方法切分的網頁粒度比較粗,有可能破壞網頁本身的內在特征,難以充分包括整個網頁的語義特征。
2、基于文檔對象模型(DOM,Document?Object?Model)的分割法:該方法通過找出網頁HTML文檔里的特定標簽,利用標簽項將HTML文檔表示成一個DOM樹的結構;然后根據特定標簽包括heading、table、paragraph和list等來提取有效的樹結點數據。但在許多情況下,文檔對象模型不是用來表示網頁內容結構的,所以利用該方法不能夠準確地對網頁中各分塊的語義信息進行辨別。關于此類方法的進一步說明可見參考文獻1:“王琦,唐世渭,楊冬青,基于DOM的網頁主題信息自動提取[J],計算機研究與發展,2004,41(10):1786-1791”;
參考文獻2:胡飛,基于標記樹的Web頁面區域劃分和搜索方法[J],計算機科學,2005,32(8):182-185.;參考文獻3:常育紅,姜哲,朱小燕,基于標記樹表示方法的頁面結構分析[J],計算機工程與應用,2004(16):129-132。
發明內容
本發明的目的是克服現有正文提取方法不能準確定義正文區域,因而無法準確提取正文的缺陷,從而提供一種基于快速傅立葉變換的正文提取方法。
為了實現上述目的,本發明提供了一種基于快速傅立葉變換的網頁正文提取方法,具體包含以下步驟:
步驟10)、讀入HTML文件,并將該文件轉換為Unicode格式,并存入一個字符數組中;
步驟20)、對步驟10)得到的字符數組進行窗口分段,分段后的窗口字符段包含固定長度的字符;
步驟30)、對字符在文檔中的位置進行統計學分析,根據統計分析的結果對字符進行強度編碼轉換,得到該字符的正文強度值,每一個窗口字符段對應一個強度值序列;
步驟40)、對步驟30)中得到的每一個窗口字符段的強度值序列進行快速傅立葉變換,得到頻域的F向量;
步驟50)、根據快速傅立葉變換的結果計算任意兩個窗口字符段之間的距離;
步驟60)、為窗口字符段設定區間,所述區間是若干個連續的窗口的組合,用數字對(b,e)表示,根據步驟50)中得到的任意兩個窗口字符段之間的距離,計算每個區間的權值;
步驟70)、對步驟60)中計算所得到的所有區間的權值排序,根據權值選擇最佳正文區間。
上述技術方案中,在所述的步驟30)中,所述的統計分析的結果包括關于字符出現位置的均值、標準方差,以及字符在文檔中的出現次數。
所述強度值序列的計算公式如下:
Ii,j=M(Wi,j,i·l+j)=M(Si·l+j,i·l+j),i=0Λ(w-1),j=0Λ(l-1);
其中,M用于計算一個字符的強度值,W表示窗口字符段的二維數組,S表示字符串數組,i表示窗口字符段的編號,j表示窗口字符段內的位置,1表示窗口字符段的長度,w表示窗口字符段的數目;
在計算所述M時,對于在位置x出現的字符c,其正文強度值為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院聲學研究所,未經中國科學院聲學研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710063182.7/2.html,轉載請聲明來源鉆瓜專利網。





