[發(fā)明專利]基于詞性分類統(tǒng)計(jì)的重復(fù)網(wǎng)頁和近似網(wǎng)頁的識別方法無效
| 申請?zhí)枺?/td> | 201210151552.3 | 申請日: | 2012-05-16 |
| 公開(公告)號: | CN102722526A | 公開(公告)日: | 2012-10-10 |
| 發(fā)明(設(shè)計(jì))人: | 安俊秀;程芃森;王鵬 | 申請(專利權(quán))人: | 成都信息工程學(xué)院 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京中海智圣知識產(chǎn)權(quán)代理有限公司 11282 | 代理人: | 巢瑞鈺 |
| 地址: | 610000 四川省成都*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 詞性 分類 統(tǒng)計(jì) 重復(fù) 網(wǎng)頁 近似 識別 方法 | ||
1.一種基于詞性分類統(tǒng)計(jì)的重復(fù)網(wǎng)頁和近似網(wǎng)頁的識別方法,其特征在于:
包括以下步驟:
(1)從網(wǎng)頁文本中提取正文;
(2)對正文進(jìn)行切詞操作;
(3)將切詞得到的詞語以詞性進(jìn)行分類;
(4)分別對每一類詞語進(jìn)行詞頻統(tǒng)計(jì);
(5)分別提取每一類詞語中詞頻最高的詞語;
(6)將步驟(5)中提取的詞語在詞級倒排索引中查詢,直到查詢成功,結(jié)束當(dāng)前詞性類別詞語的查詢,記錄下查詢出來的對應(yīng)文本編號;當(dāng)查詢完所有當(dāng)前詞性類別詞語仍未成功時,則表示當(dāng)前詞性類別的集合為空;所述詞級倒排索引結(jié)構(gòu)如下:
<T,ducument?IDi,ducument?IDj,...,ducument?IDn>
上式中,T表示索引項(xiàng),即某個詞語;document?IDi(i=1,2,...,n)
表示含有T的網(wǎng)頁文本編號,所述詞級倒排索引用于:以詞語為分類標(biāo)準(zhǔn),將文檔編號按其文檔所包含的詞語分為若干類,類和類之中的文檔編號存在交集,表明了文檔中所有包含的詞語;
(7)統(tǒng)計(jì)步驟(6)中查找出來的所有文本編號中出現(xiàn)次數(shù)最多的文本編號及其次數(shù);統(tǒng)計(jì)所有詞性類別的集合中不為空的集合個數(shù);
(8)判斷步驟(7)中頻率最高的文本次數(shù)是否大于或等于1,如果不是,則轉(zhuǎn)至步驟(9),如果是,則轉(zhuǎn)至步驟(10),所述文本次數(shù)=不為空的集合個數(shù)×閾值,其值取下整數(shù),所述閾值的取值范圍為大于0且小于等于1;
(9)將步驟(5)中所有的詞頻最高的詞語添加至所述詞級倒排索引,結(jié)束;
(10)將步驟(7)中出現(xiàn)次數(shù)最多的文本編號添加至類型倒排索引中,所述類型倒排索引的結(jié)構(gòu)如下:
<ducoment?IDT,ducoment?IDi,ducoment?IDj,...,ducoment?IDn>
上式中,ducoment?IDT表示索引項(xiàng),document?IDi(i=1,2,...,n)表示同ducoment?IDT屬于重復(fù)網(wǎng)頁和近似網(wǎng)頁的文本編號,所述類型倒排索引用于:將所有的文檔編號以是否為重復(fù)網(wǎng)頁或近似網(wǎng)頁為標(biāo)準(zhǔn)分類,每一條記錄表示一種分類,即一個重復(fù)網(wǎng)頁或近似網(wǎng)頁集合;結(jié)束。
2.根據(jù)權(quán)利要求1所述的基于詞性分類統(tǒng)計(jì)的重復(fù)網(wǎng)頁和近似網(wǎng)頁的識別方法,其特征在于:所述步驟(3)中,所述詞性的類別包括時間詞、人名詞、地名詞、機(jī)構(gòu)團(tuán)體名詞、專有名詞、其它名詞和動詞共七類,所述動詞為去掉“是”和“有”后的動詞。
3.根據(jù)權(quán)利要求1所述的基于詞性分類統(tǒng)計(jì)的重復(fù)網(wǎng)頁和近似網(wǎng)頁的識別方法,其特征在于:所述步驟(8)中,所述閾值取0.8。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于成都信息工程學(xué)院,未經(jīng)成都信息工程學(xué)院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210151552.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 統(tǒng)計(jì)系統(tǒng)、統(tǒng)計(jì)裝置和統(tǒng)計(jì)方法
- 人數(shù)統(tǒng)計(jì)方法和人數(shù)統(tǒng)計(jì)系統(tǒng)
- 統(tǒng)計(jì)物體數(shù)量的統(tǒng)計(jì)系統(tǒng)
- 網(wǎng)絡(luò)處理器的統(tǒng)計(jì)計(jì)數(shù)方法
- 統(tǒng)計(jì)信息上報方法及裝置
- 稿件統(tǒng)計(jì)方法和稿件統(tǒng)計(jì)系統(tǒng)
- 數(shù)據(jù)統(tǒng)計(jì)方法及裝置
- 獲取數(shù)據(jù)的統(tǒng)計(jì)狀態(tài)的方法及裝置
- 信息統(tǒng)計(jì)方法和信息統(tǒng)計(jì)裝置
- 電量統(tǒng)計(jì)系統(tǒng)及電量統(tǒng)計(jì)方法





