[發(fā)明專利]中文網(wǎng)頁文本除重系統(tǒng)及方法無效
| 申請?zhí)枺?/td> | 201010281715.0 | 申請日: | 2010-09-15 |
| 公開(公告)號: | CN102402537A | 公開(公告)日: | 2012-04-04 |
| 發(fā)明(設(shè)計)人: | 陳運文 | 申請(專利權(quán))人: | 盛樂信息技術(shù)(上海)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 上海浦一知識產(chǎn)權(quán)代理有限公司 31211 | 代理人: | 劉昌榮 |
| 地址: | 201203 上海市浦*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 中文 網(wǎng)頁 文本 系統(tǒng) 方法 | ||
1.一種中文網(wǎng)頁文本除重方法,其特征在于,包括如下步驟:
1)網(wǎng)頁文本歸一化處理,包括對文本的編碼,文本中的全角、半角字符以及大、小寫字符進(jìn)行一致性轉(zhuǎn)換;
2)提取文本的組合特征句;
3)計算組合特征句的數(shù)字簽名;
4)查找哈希表,判定數(shù)字簽名是否與哈希表中的值存在重復(fù),若存在重復(fù),則去除該網(wǎng)頁;若不存在重復(fù),則將該網(wǎng)頁保存到搜索引擎系統(tǒng)中,并將其數(shù)字簽名添加到哈希表中;
5)重復(fù)步驟1)至4),判定下一個待處理網(wǎng)頁文本;
所述步驟2)進(jìn)一步包括如下步驟:
21)判定文本的長度,若小于文本長度閾值,則從該文本中提取特征字符,作為組合特征句;若大于或者等于文本長度閾值,則轉(zhuǎn)到步驟22);
22)設(shè)置特征句分隔符列表,該特征句分隔符列表中的字符定義為分隔符;
23)依次遍歷文本,提取候選組合特征句;
24)判斷候選組合特征句的長度,若小于組合特征句長度閾值,則從該文本中提取特征字符,作為組合特征句;若大于或者等于組合特征句長度閾值,則以該候選組合特征句為組合特征句。
2.如權(quán)利要求1所述的中文網(wǎng)頁文本除重方法,其特征在于,所述步驟1)中的一致性轉(zhuǎn)換包括:將文本的編碼轉(zhuǎn)換為UTF-8編碼;將文本中的全角字符轉(zhuǎn)換為半角字符;以及將文本中的大寫字符轉(zhuǎn)換為小寫字符。
3.如權(quán)利要求1所述的中文網(wǎng)頁文本除重方法,其特征在于,所述步驟23)進(jìn)一步包括如下步驟:
231)遍歷文本,提取當(dāng)前特征句;
232)提取當(dāng)前特征句中的特征字符,構(gòu)成當(dāng)前組合特征句,計算該當(dāng)前組合特征句的長度;
233)判定是否已存在候選組合特征句,若存在,則計算候選組合特征句的長度;若不存在,則將候選組合特征句的長度設(shè)為0;
234)比較當(dāng)前組合特征句與候選組合特征句的長度,若當(dāng)前組合特征句的長度小于或者等于候選組合特征句的長度,則丟棄當(dāng)前組合特征句;若當(dāng)前組合特征句的長度大于候選組合特征句的長度,則用當(dāng)前組合特征句替換原候選組合特征句,成為新的候選組合特征句;
235)重復(fù)步驟231)至234)直到到達(dá)文本尾部。
4.如權(quán)利要求3所述的中文網(wǎng)頁文本除重方法,其特征在于,所述步驟231)進(jìn)一步包括如下步驟:
2311)按照如下方法設(shè)定指針的起始位置:首次設(shè)定時,以文本頭部的首字符為起始位置;再次設(shè)定時,以前次遍歷時指針的結(jié)束位置的下一個字符為起始位置;
2312)從起始位置開始依次遍歷后續(xù)字符,判定是否存在分隔符,若存在,則以該分隔符所在位置為指針的結(jié)束位置;若不存在,則以文本尾端的字符為指針的結(jié)束位置;
2313)把由指針的起始位置到結(jié)束位置之間的文本段保存為當(dāng)前特征句。
5.如權(quán)利要求4所述的中文網(wǎng)頁文本除重方法,其特征在于:所述步驟2312)中的分隔符,在已遍歷的文本長度小于或者等于閾值時,為A類分隔符;在已遍歷的文本長度大于閾值時,為A類或者B類分隔符的總和;該A類分隔符包括以下4類字符:???。;,該B類分隔符包括以下20類字符:,:-+=~‘“[]{}()《》<>//。
6.如權(quán)利要求5所述的中文網(wǎng)頁文本除重方法,其特征在于:所述閾值為1200個字符。
7.如權(quán)利要求1或3所述的中文網(wǎng)頁文本除重方法,其特征在于,所述特征字符,按照如下步驟進(jìn)行提?。?/p>
去除空格;
提取文本編碼中的中文字符;
提取數(shù)字0~9;
提取英文字符a~z。
8.如權(quán)利要求1所述的中文網(wǎng)頁文本除重方法,其特征在于:所述步驟24)中,組合特征句長度閾值為100個字符。
9.如權(quán)利要求1所述的中文網(wǎng)頁文本除重方法,其特征在于:所述步驟3)中的數(shù)字簽名采用MD5碼。
10.一種中文網(wǎng)頁文本除重系統(tǒng),其特征在于,包括:
索引服務(wù)器,用于計算中文網(wǎng)頁的數(shù)字簽名,該索引服務(wù)器進(jìn)一步包括網(wǎng)頁文本預(yù)處理模塊、組合特征句提取模塊以及數(shù)字簽名計算模塊,該網(wǎng)頁文本預(yù)處理模塊用于對中文網(wǎng)頁文本進(jìn)行歸一化處理;該組合特征句提取模塊用于提取經(jīng)網(wǎng)頁文本預(yù)處理模塊處理后的文本的組合特征句;該數(shù)字簽名計算模塊用于計算組合特征句的數(shù)字簽名,并將計算得到的數(shù)字簽名傳給檢索服務(wù)器;
檢索服務(wù)器,用于判斷中文網(wǎng)頁是否重復(fù),該檢索服務(wù)器進(jìn)一步包括網(wǎng)頁文本抓取模塊和哈希查詢模塊,該網(wǎng)頁文本抓取模塊用于抓取互聯(lián)網(wǎng)上的中文網(wǎng)頁文本,并傳給索引服務(wù)器;該哈希查詢模塊中包含有用于存放搜索引擎系統(tǒng)已保存網(wǎng)頁的數(shù)字簽名的哈希表,該哈希查詢模塊用于查詢待判定網(wǎng)頁的數(shù)字簽名是否與哈希表中的值存在重復(fù),如果不存在重復(fù),則將該待判定網(wǎng)頁的數(shù)字簽名加入到哈希表中。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于盛樂信息技術(shù)(上海)有限公司,未經(jīng)盛樂信息技術(shù)(上海)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010281715.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





