日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]基于詞性分類統計的重復網頁和近似網頁的識別方法無效

專利信息
申請號: 201210151552.3 申請日: 2012-05-16
公開(公告)號: CN102722526A 公開(公告)日: 2012-10-10
發明(設計)人: 安俊秀;程芃森;王鵬 申請(專利權)人: 成都信息工程學院
主分類號: G06F17/30 分類號: G06F17/30;G06F17/27
代理公司: 北京中海智圣知識產權代理有限公司 11282 代理人: 巢瑞鈺
地址: 610000 四川省成都*** 國省代碼: 四川;51
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 基于 詞性 分類 統計 重復 網頁 近似 識別 方法
【說明書】:

技術領域

發明涉及一種重復網頁和近似網頁的識別方法,尤其涉及一種基于詞性分類統計的重復網頁和近似網頁的識別方法。

背景技術

隨著互聯網的深入發展,網頁的數量顯著增加,搜索引擎也越來越重要。在對網頁的搜索、分類、分析過程中,對重復網頁和近似網頁的識別也顯得越來越重要。對重復網頁和近似網頁的識別,能夠為互聯網信息有序化過程中的信息去重和整合提供必要依據,提高搜索引擎的檢全率和檢準率,提升搜索結果中有效信息含量,提升用戶體驗。

目前,重復網頁和近似網頁的識別方法有很多,舉例如下:

1、以句法為基準的聚類算法即DSC算法:在DSC算法中,文檔由若干個shingle(shingle表示若干詞組成的一個詞段)組成,通過比較文本中含有相同shingle的個數判定網頁是否重復。與全文比較而言,此算法降低了比較次數,但是效率依然較低,因此該方法創始人又提出了一個改進的算法:DSC-SS算法。DSC-SS算法為了提高效率,將若干個shingle合并成一個大的shingle,并且把這些大的shingle轉換為一個散列值。但是,DSC-SS的效率對當前大規模網頁而言依然較低。

2、在SCAM(Stanford?Copy?Analysis?Mechanism,斯坦福副本分析機制)系統近似鏡像檢測算法的基礎上提出了后來用于Google系統的分塊簽名算法:該算法將文本以詞、詞序列、句子、段落或者全文為單位分塊,把每一個塊作為單獨的輸入對應地生成一個32比特位的散列值,一篇文檔就由若干個32位的散列值表示。本算法的優點在于分塊靈活,查詢速度快,缺點是需要頻繁的更新索引。

3、針對中文網頁的大規模網頁去重算法:在此算法中,提取以句號為中心的前5個漢字和后5個漢字組成特征碼,并且通過B-Tree(多路搜索樹)來索引所用的特征碼,減少比較次數,加快對比效率。該算法效率極高,但是網頁頁面結構布局的繁復導致該算法無法推廣。

4、I-Match算法:對shingle采取了過濾,并且把shingle作為輸入生成一個MD5(MD表示信息摘要算法)值。shingle在全部文檔頻率中具有不確定性,導致簽名結果不穩定。

5、基于特征串的大規模網頁去重算法:本算法在網頁內容上引入了網頁文本的結構信息。但是,文本段落順序的差異或段落的丟失對算法的結果影響較大。

6、基于網頁文本結構的網頁去重算法:通過網頁結構生成目錄結構樹。本算法在鏡像網頁識別的正確率和召回率極高,但是算法復雜,效率較低,需要較大的空間維護所有的目錄結構樹。

7、基于正文結構和長句提取的網頁去重算法:本算法動態地、分層地對正文進行特征抽取和層次指紋計算,保證了去重算法的效率;通過長句提取算法得到節點指紋,保證了算法的魯棒性。但是,該算法復雜,開銷大,需要為每一篇網頁維護一棵樹,對內存資源消耗大。

8、將布隆過濾器算法引入到網頁消重技術中,提出了基于布隆過濾器算法的網頁消重技術,此方法時空效率高,但是不足在于,并未能把元素間的全排列順序考慮在內,最后生成的二進制數組里內容的順序不確定。

9、合并特征碼、特征句和K-CC(一種改進的基于關鍵詞和特征碼的網頁去重算法)算法的基于關鍵詞和特征碼的頁面去重算法,此算法復雜度較高,關鍵詞選取采用了貝葉斯模型,需要不斷的升級訓練樣本。

10、基于概念和語義網絡的近似網頁檢測算法:本算法具有良好的時空復雜度,且不依賴于語料庫。但是,此算法在短小網頁的處理中由于關鍵概念識別困難,而導致算法識別率降低。

綜上,過去傳統的經典算法較為簡單、實用性強,但是互聯網發展迅速,目前網頁結構布局復雜,噪聲量增多,導致算法失效;而當前現用的算法,能夠應對當前網頁結構布局的繁復,降低了噪聲的影響,但是算法較為復雜,實用性較低。

發明內容

本發明的目的就在于為了解決上述問題而提供一種算法步驟簡單、實用性強的基于詞性分類統計的重復網頁和近似網頁的識別方法。

為了達到上述目的,本發明采用了以下技術方案:

本發明包括以下步驟:

(1)從網頁文本中提取正文;

(2)對正文進行切詞操作;

(3)將切詞得到的詞語以詞性進行分類;

(4)分別對每一類詞語進行詞頻統計;

(5)分別提取每一類詞語中詞頻最高的詞語;

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都信息工程學院,未經成都信息工程學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201210151552.3/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 欧美二区在线视频| 韩漫无遮韩漫免费网址肉| 国产午夜伦理片| 91久久久久久亚洲精品禁果| 91久久国语露脸精品国产高跟 | 在线视频不卡一区| 国产精品一区在线观看| 国产一区二区在线免费| 国产69精品久久99不卡解锁版| 久久精品欧美一区二区| 欧美一区二区三区四区夜夜大片 | 91丝袜国产在线播放| 欧美精品中文字幕在线观看| 久久99精品国产| 欧美精品xxxxx| 电影午夜精品一区二区三区| 国产精品久久久视频| 国产一区不卡视频| 亚洲天堂国产精品| 国产伦理久久精品久久久久| 欧美三级午夜理伦三级中视频| 国内揄拍国产精品| 欧美性xxxxx极品少妇| 夜夜爽av福利精品导航| 麻豆精品久久久| 国产第一区二区三区| 国产91白嫩清纯初高中在线| 日韩精品午夜视频| 老太脱裤子让老头玩xxxxx| 国产1区2区3区中文字幕| 亚洲精品久久久久久动漫| 久久精品综合视频| 亚洲精品久久久久不卡激情文学| 福利片一区二区三区| 亚洲伊人久久影院| 精品久久久久久久久亚洲| 一区二区三区国产视频| 亚洲美女在线一区| 亚洲欧洲一区二区| 国产97久久| 国产精品综合一区二区| 欧美久久久一区二区三区| 亚洲欧洲日韩在线| 欧美一区二粉嫩精品国产一线天| 免费午夜片| 性欧美一区二区| 国产精品6699| 午夜看片网址| ass美女的沟沟pics| 国产一区二三| 国产不卡三区| 国产在线拍偷自揄拍视频 | 欧美一区二区三区免费电影| 伊人久久婷婷色综合98网| 日韩av不卡一区二区| 国产第一区二区| 国产天堂一区二区三区| 日日夜夜精品免费看 | 二区三区免费视频| 海量av在线| 亚洲神马久久| 久久久久久中文字幕| 国产二区三区视频| 国产一区免费在线观看| 狠狠色综合久久丁香婷婷| 午夜激情电影院| 久久99亚洲精品久久99| 一区二区三区电影在线观看| 国产一区二三| 久久精视频| 国产清纯白嫩初高生在线观看性色| 国产精品69av| 中文字幕区一区二| 欧美高清视频一区二区三区| 欧美日韩一区二区三区免费| 强制中出し~大桥未久10| 日本美女视频一区二区三区| 亚洲精品丝袜| 亚洲制服丝袜中文字幕| 欧美在线观看视频一区二区 | 国产精品乱码久久久久久久久| 午夜看片在线| 夜夜躁人人爽天天天天大学生 | 亚洲一区二区福利视频| 国产精品欧美久久| 少妇特黄v一区二区三区图片| 男女视频一区二区三区| 黄色国产一区二区| 国产一二三区免费| 欧美一区二三区人人喊爽| 国产视频一区二区三区四区| 狠狠色丁香久久婷婷综合丁香| 久久国产欧美一区二区三区精品| 夜夜躁狠狠躁日日躁2024| 国产乱xxxxx国语对白| 欧美黄色一二三区| 欧美一区久久久| 国产乱色国产精品播放视频| 国产男女乱淫真高清视频免费| 国产午夜精品一区二区三区欧美| 久久人做人爽一区二区三区小说| 久久久久国产亚洲| 久久er精品视频| 中文天堂在线一区| 国产午夜精品一区二区三区在线观看 | 91在线一区| 日韩精品免费一区二区在线观看| 少妇又紧又色又爽又刺激视频网站| 综合久久国产九一剧情麻豆| 亚洲乱小说| 久久免费视频99| 性色av色香蕉一区二区| 国产天堂第一区| 日韩国产欧美中文字幕| 亚洲少妇中文字幕| 亚洲国产aⅴ精品一区二区16| 日本99精品| 中文字幕一区二区三区不卡| 午夜伦情电午夜伦情电影| 国产一区二区伦理| 日韩av在线网址| 欧美一区二区色| 久久国产精品波多野结衣| 色婷婷综合久久久久中文| 97人人模人人爽人人喊38tv| 亚洲麻豆一区| 亚洲精品日日夜夜| 久久99精品国产| 欧美精品第1页| 日韩欧美高清一区二区| 国产精品网站一区| 国产精品国外精品| 国产精品久久久久久久新郎| 国产无套精品一区二区| 999国产精品999久久久久久| 国产欧美日韩另类| 欧美精品一区二区三区久久久竹菊| 国产馆一区二区| 68精品国产免费久久久久久婷婷| 亚洲高清毛片一区二区| 福利视频亚洲一区| 日韩av在线影视| 国产一区精品在线观看| 国产日韩欧美网站| 国产一级大片| 日本看片一区二区三区高清| 性欧美1819sex性高播放| 日日噜噜夜夜狠狠| 亚洲乱亚洲乱妇28p| 午夜看片在线| 91avpro| 国产乱子一区二区| 日韩一区国产| 日韩精品少妇一区二区在线看| 国产99小视频| 亚洲精品乱码久久久久久按摩| 精品国产一区二区三区四区vr| 亚洲**毛茸茸| 国产激情视频一区二区| 午夜精品在线观看| 亚洲精品日韩在线| 91麻豆精品国产91久久| 国产精品人人爽人人做av片| 一区二区精品在线| 亚洲精品日韩在线| 免费观看xxxx9999片| 精品一区二区三区影院| 蜜臀久久精品久久久用户群体| 精品国精品国产自在久不卡| 亚洲精品人| 欧美乱码精品一区二区| 午夜色影院| 中文字幕一区二区三区免费视频| 国产精品一品二区三区四区五区| 欧美日韩综合一区| 四虎国产精品永久在线国在线 | 欧美一级不卡| 国产精品久久久久久久久久久杏吧| 国产伦精品一区二区三区免费下载| 国产中文字幕一区二区三区| 性色av色香蕉一区二区| 销魂美女一区二区| 中文字幕1区2区3区| 午夜a电影| 国产伦精品一区二区三区电影 | 国产乱码精品一区二区三区中文| 亚洲五码在线| 国产在线精品一区| 中文字幕一区二区三区又粗| 日本高清一二三区| 亚洲精品国产一区| 国内视频一区二区三区| 欧美一级不卡| 丰满岳乱妇bd在线观看k8| 欧美综合国产精品久久丁香| 欧美日韩不卡视频| 欧美日韩一级二级三级| 亚洲精品性| 少妇久久免费视频| 国产大学生呻吟对白精彩在线| 亚洲国产精品日韩av不卡在线 | 夜夜躁日日躁狠狠久久av| 久久国产欧美视频| 狠狠躁天天躁又黄又爽| 97精品国产aⅴ7777| 最新日韩一区| 456亚洲精品| aaaaa国产欧美一区二区| 国产白丝一区二区三区| 91精品国产高清一区二区三区| 91精品系列| 激情欧美一区二区三区| 国产精品一区二区毛茸茸| 国产偷国产偷亚洲清高| 秋霞av电影网| 国产精品一区二区av麻豆| 欧美一区二区三区久久综合| 国产日韩欧美专区| 欧美精品日韩| 亚洲精品suv精品一区二区| 少妇久久免费视频| 日本一区二区三区免费播放| 日本护士hd高潮护士| 午夜伦理片在线观看| 日韩精品一区二区三区免费观看| 久久精品综合| 国产一区免费在线观看| 国产91丝袜在线熟| 99久久精品国| 午夜影院啪啪| 国产www亚洲а∨天堂| 欧美一区二区三区黄| 99视频一区| 久久99久国产精品黄毛片入口| 亚洲欧美一卡| 午夜国产一区二区三区四区| 日韩精品免费一区二区中文字幕| 日韩区欧美久久久无人区| 精品久久久久一区二区| 国产精品久久二区| 91精品国产九九九久久久亚洲| 亚洲一二区在线观看| 国产videosfree性另类| 欧美日韩综合一区| 欧美亚洲另类小说| 久久精品一|