[發(fā)明專利]一種基于快速傅里葉變換的網(wǎng)頁正文提取方法無效
| 申請(qǐng)?zhí)枺?/td> | 200710063182.7 | 申請(qǐng)日: | 2007-01-30 |
| 公開(公告)號(hào): | CN101237465A | 公開(公告)日: | 2008-08-06 |
| 發(fā)明(設(shè)計(jì))人: | 王勁林;李蕾;李曄;白鶴;胡晶晶 | 申請(qǐng)(專利權(quán))人: | 中國科學(xué)院聲學(xué)研究所 |
| 主分類號(hào): | H04L29/08 | 分類號(hào): | H04L29/08;H04L27/26;G06F17/30 |
| 代理公司: | 北京泛華偉業(yè)知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人: | 高存秀 |
| 地址: | 100080北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 快速 傅里葉變換 網(wǎng)頁 正文 提取 方法 | ||
1.?一種基于快速傅立葉變換的網(wǎng)頁正文提取方法,具體包含以下步驟:
步驟10)、讀入HTML文件,并將該文件轉(zhuǎn)換為Unicode格式,并存入一個(gè)字符數(shù)組中;
步驟20)、對(duì)步驟10)得到的字符數(shù)組進(jìn)行窗口分段,分段后的窗口字符段包含固定長(zhǎng)度的字符;
步驟30)、對(duì)字符在文檔中的位置進(jìn)行統(tǒng)計(jì)學(xué)分析,根據(jù)統(tǒng)計(jì)分析的結(jié)果對(duì)字符進(jìn)行強(qiáng)度編碼轉(zhuǎn)換,得到該字符的正文強(qiáng)度值,每一個(gè)窗口字符段對(duì)應(yīng)一個(gè)強(qiáng)度值序列;
步驟40)、對(duì)步驟30)中得到的每一個(gè)窗口字符段的強(qiáng)度值序列進(jìn)行快速傅立葉變換,得到頻域的F向量;
步驟50)、根據(jù)快速傅立葉變換的結(jié)果計(jì)算任意兩個(gè)窗口字符段之間的距離;
步驟60)、為窗口字符段設(shè)定區(qū)間,所述區(qū)間是若干個(gè)連續(xù)的窗口的組合,用數(shù)字對(duì)(b,e)表示,根據(jù)步驟50)中得到的任意兩個(gè)窗口字符段之間的距離,計(jì)算每個(gè)區(qū)間的權(quán)值;
步驟70)、對(duì)步驟60)中計(jì)算所得到的所有區(qū)間的權(quán)值排序,根據(jù)權(quán)值選擇最佳正文區(qū)間。
2.?根據(jù)權(quán)利要求1所述的基于快速傅立葉變換的網(wǎng)頁正文提取方法,其特征在于,在所述的步驟30)中,所述的統(tǒng)計(jì)分析的結(jié)果包括關(guān)于字符出現(xiàn)位置的均值、標(biāo)準(zhǔn)方差,以及字符在文檔中的出現(xiàn)次數(shù)。
3.?根據(jù)權(quán)利要求2所述的基于快速傅立葉變換的網(wǎng)頁正文提取方法,其特征在于,所述強(qiáng)度值序列的計(jì)算公式如下:
Ii,j=M(Wi,j,i·l+j)=M(Si·l+j,i·l+j),i=0Λ(w-1),j=0Λ(l-1);
其中,M用于計(jì)算一個(gè)字符的強(qiáng)度值,W表示窗口字符段的二維數(shù)組,S表示字符串?dāng)?shù)組,i表示窗口字符段的編號(hào),j表示窗口字符段內(nèi)的位置,l表示窗口字符段的長(zhǎng)度,w表示窗口字符段的數(shù)目;
在計(jì)算所述M時(shí),對(duì)于在位置x出現(xiàn)的字符c,其正文強(qiáng)度值為:
上述公式中,μc是字符c出現(xiàn)位置的均值,σc是字符c出現(xiàn)位置的標(biāo)準(zhǔn)方差,Nc是字符c出現(xiàn)的次數(shù)。
4.?根據(jù)權(quán)利要求1所述的基于快速傅立葉變換的網(wǎng)頁正文提取方法,其特征在于,在所述的步驟50)中,所述的計(jì)算任意兩段之間的距離為計(jì)算各頻率上的歐式距離的總和,其計(jì)算公式如下:
其中,F(xiàn)為步驟40)中做快速傅立葉變換后的結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)院聲學(xué)研究所,未經(jīng)中國科學(xué)院聲學(xué)研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710063182.7/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 正交頻分復(fù)用接收機(jī)
- 用于光刻術(shù)的檢查設(shè)備
- 圖案檢查方法及裝置、光掩模制造方法以及圖案轉(zhuǎn)印方法
- 信號(hào)接收設(shè)備、信號(hào)接收方法和信號(hào)接收程序
- 用于基于大點(diǎn)數(shù)傅里葉變換實(shí)現(xiàn)信號(hào)處理的方法和設(shè)備
- 快速傅里葉變換處理方法和系統(tǒng)
- 基于傅里葉變換核磁共振譜疊加峰形的核磁共振譜獲取方法
- 基于傅里葉變換磁共振成像疊加式峰形的磁共振成像方法
- 一種基于HLS的二維傅里葉變換IP核的設(shè)計(jì)方法
- 擠壓短時(shí)傅里葉變換的地震勘探信號(hào)隨機(jī)噪聲壓制方法





