日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種從維基百科半結構化數據自動構建分類樹的方法有效

專利信息
申請號: 201410040234.9 申請日: 2014-01-27
公開(公告)號: CN103778238A 公開(公告)日: 2014-05-07
發明(設計)人: 劉均;魏筆凡;馮博琴;鄭慶華;馬健;王晨晨;吳蓓 申請(專利權)人: 西安交通大學
主分類號: G06F17/30 分類號: G06F17/30
代理公司: 西安通大專利代理有限責任公司 61200 代理人: 蔡和平
地址: 710049 陜*** 國省代碼: 陜西;61
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 百科 結構 數據 自動 構建 分類 方法
【權利要求書】:

1.一種從維基百科半結構化數據自動構建分類樹的方法,其特征在于,包括以下步驟:

第1步、半結構化數據的抽?。和ㄟ^分析獲取到頁面的HTML,識別出含有半結構化數據的頁面,所述半結構化數據指維基百科目錄頁面及維基百科條目頁面中的導航表格;

第2步、半結構化數據中上下位關系的抽?。撼槿【S基百科目錄頁面中上下位關系和導航表格中上下位關系;

第3步、源于不同半結構化數據的上下位關系融合:依據抽取到的上下位關系集構建向有向無權簡單圖,然后基于圖的深度優先遍歷算法生成分類樹。

2.根據權利要求1所述的一種從維基百科半結構化數據自動構建分類樹的方法,其特征在于,第1步具體包括以下步驟:

第1.1步:從維基百科網站首頁www.wikipedia.org開始,通過解析頁面的超鏈接逐層爬取所有頁面,依據頁面URL前綴“http://en.wikipedia.org/wiki/”獲取條目頁面,依據URL前綴“http://en.wikipedia.org/wiki/Category:”獲取目錄頁面,每個頁面對應一個實體,頁面標題為該實體的名字;

第1.2步:根據條目頁面是否含有HTML標簽<table?class=″navbox″>,篩選出含有導航表格的條目頁面。

3.根據權利要求1所述的一種從維基百科半結構化數據自動構建分類樹的方法,其特征在于,第1步具體包括以下步驟:

1):通過Web頁面爬取工具爬取維基百科首頁http://www.wiki?pedia.org/并進行解析,然后依據HTML標簽<a>和</a>找出該頁面中的所有匹配模式http/:∨∨[a-z]+/.wikipedia/.org∨的超鏈接,記為{head_linki}n,其中n表示所有不同語言的維基子網站數目;每個這樣的超鏈接head_linki對應一種語言的維基百科子網站,并且是該子網站的首頁,枚舉每個維基子網站首頁的超鏈接head_linki;

2):構建空的哈希表,該哈希表用來記錄某個頁面是否已經被爬取過,使用頁面的URL地址來標識不同的頁面;

3):設置當前爬取頁面地址為當前維基子網站首頁,current-link=head_linki;

4):在HashSet查詢current_link,如果命中,表明頁面已經被爬取過,則不再爬取跳轉到第8步;如果該頁面沒有爬取過,則通過Web頁面爬取工具爬取該頁面,并將該鏈接加入到HashSet中,即執行HashSet.add(current_link);

5):如果該頁面URL前綴是“http://en.wikipedia.org/wiki/Category:”,則保存該頁面到ArticleSet,并跳轉到第7)步;

6):如果該頁面URL前綴是“http://en.wikipedia.org/wiki/”,進一步判斷該條目頁面是否含有HTML標簽<table?class=″navbox″>,如有則保存該頁面到CategorySet;

7):解析該頁面,依據HTML標簽<a>和</a>找出該頁面中的所有超鏈接{hype?rlinki}m,將所有這些超鏈接壓入超鏈接棧LinkStack中,即LinkStack.pushAll({hyperlinki}m);

8):如果LinkStack不為空,current_link=LinkStack.pop(),跳轉到第4步;如果LinkStack為空,退出。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安交通大學,未經西安交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201410040234.9/1.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖;

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 欧美日韩国产一区在线| 99国产午夜精品一区二区天美| 91看片片| xxxxhdvideosex| 亚洲四区在线观看| 香蕉视频在线观看一区二区| 91av中文字幕| 欧美一区二三区| 欧美一区二区激情三区| 国产精品女同一区二区免费站| 久久国产精品-国产精品| 丰满少妇高潮惨叫久久久一| 日韩一级片免费观看| 亚洲自拍偷拍一区二区三区| 精品国产乱码久久久久久虫虫| 国产美女三级无套内谢| 欧美69精品久久久久久不卡| 欧美高清xxxxx| 国产丝袜一区二区三区免费视频| 日韩精品久久久久久久的张开腿让| 国产一区二区精品在线| 精品国产一区二区三区麻豆免费观看完整版| 国产免费一区二区三区四区五区| 亚洲一区二区三区加勒比| 99国产精品| 国产一区二区国产| 国产色婷婷精品综合在线播放 | 国产精品18久久久久白浆| 97久久国产亚洲精品超碰热| 偷拍自中文字av在线| 精品国产伦一区二区三区| 亚洲精品久久久久久久久久久久久久| 欧美日韩中文字幕一区| 国产色99| 精品国产乱码久久久久久图片| 久久久久亚洲精品视频| 国产91高清| 午夜wwww| www亚洲精品| 欧美日韩亚洲三区| 欧美色综合天天久久综合精品| 久久综合二区| 国产婷婷一区二区三区久久| 国产男女乱淫视频高清免费| 少妇又紧又色又爽又刺激视频网站| 日韩av中文字幕一区二区| 欧美乱码精品一区二区| 特高潮videossexhd| 国产欧美日韩一区二区三区四区| 国产呻吟久久久久久久92| 亚洲高清国产精品| 亚洲精品卡一卡二| 理论片午午伦夜理片在线播放 | 中文字幕一区二区在线播放| 国产农村妇女精品一区二区| 亚洲精品一品区二品区三品区 | 国产精品三级久久久久久电影| 国产日韩欧美亚洲综合| 狠狠色狠狠色综合日日2019| 久久九精品| 国产毛片精品一区二区| 国产精品久久国产精品99| www色视频岛国| 欧美二区精品| 欧美日韩一区二区在线播放| 麻豆精品国产入口| 国产区一二| 国产精品一区二区免费| 国产日韩欧美精品| 96国产精品视频| 国产一区二区三区的电影| 国产一区二区三区乱码| 亚洲精品一区在线| 国产999精品久久久久久绿帽| 国产乱人伦精品一区二区| 99国产精品久久久久99打野战 | 欧美系列一区| 日本精品一二区| 欧美精品国产精品| 国产免费一区二区三区网站免费 | 天堂av色婷婷一区二区三区| 欧美一区二区三区免费电影|