日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發(fā)明專(zhuān)利]一種從維基百科半結(jié)構(gòu)化數(shù)據(jù)自動(dòng)構(gòu)建分類(lèi)樹(shù)的方法有效

專(zhuān)利信息
申請(qǐng)?zhí)枺?/td> 201410040234.9 申請(qǐng)日: 2014-01-27
公開(kāi)(公告)號(hào): CN103778238A 公開(kāi)(公告)日: 2014-05-07
發(fā)明(設(shè)計(jì))人: 劉均;魏筆凡;馮博琴;鄭慶華;馬健;王晨晨;吳蓓 申請(qǐng)(專(zhuān)利權(quán))人: 西安交通大學(xué)
主分類(lèi)號(hào): G06F17/30 分類(lèi)號(hào): G06F17/30
代理公司: 西安通大專(zhuān)利代理有限責(zé)任公司 61200 代理人: 蔡和平
地址: 710049 陜*** 國(guó)省代碼: 陜西;61
權(quán)利要求書(shū): 查看更多 說(shuō)明書(shū): 查看更多
摘要:
搜索關(guān)鍵詞: 一種 百科 結(jié)構(gòu) 數(shù)據(jù) 自動(dòng) 構(gòu)建 分類(lèi) 方法
【說(shuō)明書(shū)】:

技術(shù)領(lǐng)域

本發(fā)明涉及知識(shí)獲取技術(shù)領(lǐng)域,特別涉及一種利用維基百科半結(jié)構(gòu)化數(shù)據(jù)自動(dòng)構(gòu)建分類(lèi)樹(shù)的方法。

背景技術(shù)

互聯(lián)網(wǎng)促使信息數(shù)字化的進(jìn)程加速,其上信息以指數(shù)增長(zhǎng)。目前數(shù)字信息已呈現(xiàn)數(shù)量龐大、類(lèi)型繁多、更新迅速等發(fā)展趨勢(shì)。著名的Web搜索引擎Google索引的網(wǎng)頁(yè)數(shù)量目前已經(jīng)達(dá)到500億。信息時(shí)代帶來(lái)了海量的數(shù)字化文本,日益積累的數(shù)據(jù)使得信息的獲取越來(lái)越困難。

在數(shù)量巨大的頁(yè)面中含有人工編輯的半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)散落在不同的頁(yè)面中,造成人們無(wú)法從大量頁(yè)面中迅速而準(zhǔn)確地找到這些有用的半結(jié)構(gòu)化信息。

維基百科(www.wikipedia.org)是目前訪問(wèn)量最大的十個(gè)網(wǎng)站之一,維基百科頁(yè)面由志愿者共同編輯,含有大量高質(zhì)量的半結(jié)構(gòu)化數(shù)據(jù),這些半結(jié)構(gòu)化數(shù)據(jù)中蘊(yùn)藏著大量的上下位關(guān)系,因而需要自動(dòng)化的抽取方法從這些半結(jié)構(gòu)化數(shù)據(jù)中獲取上下位關(guān)系,并進(jìn)行融合最終形成分類(lèi)樹(shù)。

現(xiàn)有技術(shù)中尚未找到有關(guān)從維基百科半結(jié)構(gòu)化數(shù)據(jù)中抽取上下位關(guān)系抽取及構(gòu)建分類(lèi)樹(shù)的專(zhuān)利或者文獻(xiàn);只檢索到了一篇與本專(zhuān)利相關(guān)的已授權(quán)專(zhuān)利:一種基于Web數(shù)值表格抽取的數(shù)據(jù)挖掘方法[專(zhuān)利號(hào):ZL200910084507.9];該專(zhuān)利的發(fā)明人基于領(lǐng)域知識(shí)庫(kù),提出一種從Web數(shù)值表格抽取數(shù)值知識(shí)元庫(kù)的方法。該專(zhuān)利所述方法依賴領(lǐng)域知識(shí)庫(kù),且只能處理數(shù)值表格,無(wú)法識(shí)別表格中字符串表示的實(shí)體及實(shí)體間的關(guān)系。

發(fā)明內(nèi)容

本發(fā)明的目的是提供一種從維基百科半結(jié)構(gòu)化數(shù)據(jù)自動(dòng)構(gòu)建分類(lèi)樹(shù)的方法,通過(guò)分析半結(jié)構(gòu)化數(shù)據(jù)中的模式和實(shí)體,自動(dòng)抽取出半結(jié)構(gòu)化數(shù)據(jù)中的實(shí)體及它們間的上下位關(guān)系,從而可以大大減少計(jì)算量,降低計(jì)算復(fù)雜度。所述實(shí)體是指維基百科頁(yè)面的標(biāo)題及結(jié)構(gòu)化數(shù)據(jù)中的最小處理單元。所述實(shí)體間的上下位關(guān)系是指實(shí)體間內(nèi)在的分類(lèi)關(guān)系。

為達(dá)到以上目的,本發(fā)明是采取如下技術(shù)方案予以實(shí)現(xiàn)的:

一種從維基百科半結(jié)構(gòu)化數(shù)據(jù)自動(dòng)構(gòu)建分類(lèi)樹(shù)的方法,包括以下步驟:

第1步、半結(jié)構(gòu)化數(shù)據(jù)的抽取:通過(guò)分析獲取到頁(yè)面的HTML,識(shí)別出含有半結(jié)構(gòu)化數(shù)據(jù)的頁(yè)面,所述半結(jié)構(gòu)化數(shù)據(jù)指維基百科目錄頁(yè)面及維基百科條目頁(yè)面中的導(dǎo)航表格;

第2步、半結(jié)構(gòu)化數(shù)據(jù)中上下位關(guān)系的抽取:抽取維基百科目錄頁(yè)面中上下位關(guān)系和導(dǎo)航表格中上下位關(guān)系;

第3步、源于不同半結(jié)構(gòu)化數(shù)據(jù)的上下位關(guān)系融合:依據(jù)抽取到的上下位關(guān)系集構(gòu)建向有向無(wú)權(quán)簡(jiǎn)單圖,然后基于圖的深度優(yōu)先遍歷算法生成分類(lèi)樹(shù)。

本發(fā)明進(jìn)一步的改進(jìn)在于:第1步具體包括以下步驟:

第1.1步:從維基百科網(wǎng)站首頁(yè)www.wikipedia.org開(kāi)始,通過(guò)解析頁(yè)面的超鏈接逐層爬取所有頁(yè)面,依據(jù)頁(yè)面URL前綴“http://en.wikipedia.org/wiki/”獲取條目頁(yè)面,依據(jù)URL前綴“http://en.wikipedia.org/wiki/Category:”獲取目錄頁(yè)面,每個(gè)頁(yè)面對(duì)應(yīng)一個(gè)實(shí)體,頁(yè)面標(biāo)題為該實(shí)體的名字;

第1.2步:根據(jù)條目頁(yè)面是否含有HTML標(biāo)簽<table?class=″navbox″>,篩選出含有導(dǎo)航表格的條目頁(yè)面。

本發(fā)明進(jìn)一步的改進(jìn)在于:第1步具體包括以下步驟:

1):通過(guò)Web頁(yè)面爬取工具爬取維基百科首頁(yè)http://www.wiki?pedia.org/并進(jìn)行解析,然后依據(jù)HTML標(biāo)簽<a>和</a>找出該頁(yè)面中的所有匹配模式http/:∨∨[a-z]+/.wikipedia/.org∨的超鏈接,記為{head_linki}n’其中n表示所有不同語(yǔ)言的維基子網(wǎng)站數(shù)目;每個(gè)這樣的超鏈接heaad_linnki對(duì)應(yīng)一種語(yǔ)言的維基百科子網(wǎng)站,并且是該子網(wǎng)站的首頁(yè),枚舉每個(gè)維基子網(wǎng)站首頁(yè)的超鏈接head_linki;

2):構(gòu)建空的哈希表,該哈希表用來(lái)記錄某個(gè)頁(yè)面是否已經(jīng)被爬取過(guò),使用頁(yè)面的URL地址來(lái)標(biāo)識(shí)不同的頁(yè)面;

3):設(shè)置當(dāng)前爬取頁(yè)面地址為當(dāng)前維基子網(wǎng)站首頁(yè),current_link=head_linki;

4):在HashSet查詢curre?nt_link,如果命中,表明頁(yè)面已經(jīng)被爬取過(guò),則不再爬取跳轉(zhuǎn)到第8步;如果該頁(yè)面沒(méi)有爬取過(guò),則通過(guò)Web頁(yè)面爬取工具爬取該頁(yè)面,并將該鏈接加入到HashSet中,即執(zhí)行HashSet.add(current_link);

下載完整專(zhuān)利技術(shù)內(nèi)容需要扣除積分,VIP會(huì)員可以免費(fèi)下載。

該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于西安交通大學(xué),未經(jīng)西安交通大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201410040234.9/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。

×

專(zhuān)利文獻(xiàn)下載

說(shuō)明:

1、專(zhuān)利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專(zhuān)利說(shuō)明書(shū);

2、支持發(fā)明專(zhuān)利 、實(shí)用新型專(zhuān)利、外觀設(shè)計(jì)專(zhuān)利(升級(jí)中);

3、專(zhuān)利數(shù)據(jù)每周兩次同步更新,支持Adobe PDF格式;

4、內(nèi)容包括專(zhuān)利技術(shù)的結(jié)構(gòu)示意圖流程工藝圖技術(shù)構(gòu)造圖

5、已全新升級(jí)為極速版,下載速度顯著提升!歡迎使用!

請(qǐng)您登陸后,進(jìn)行下載,點(diǎn)擊【登陸】 【注冊(cè)】

關(guān)于我們 尋求報(bào)道 投稿須知 廣告合作 版權(quán)聲明 網(wǎng)站地圖 友情鏈接 企業(yè)標(biāo)識(shí) 聯(lián)系我們

鉆瓜專(zhuān)利網(wǎng)在線咨詢

周一至周五 9:00-18:00

咨詢?cè)诰€客服咨詢?cè)诰€客服
tel code back_top
主站蜘蛛池模板: 国产精品电影一区二区三区| 偷拍精品一区二区三区| 国产视频在线一区二区| 国产91高清| 午夜特片网| 日本一二三区电影| 日韩精品中文字幕一区二区三区 | 欧美一区二区三区四区夜夜大片| 夜夜嗨av禁果av粉嫩av懂色av| 羞羞视频网站免费| 护士xxxx18一19| 久久99精| 国产乱了高清露脸对白| 91一区二区三区在线| 欧美日韩三区| 久久噜噜少妇网站| 日韩精品一区二区三区中文字幕| 四季av中文字幕一区| 日本福利一区二区| 黄毛片在线观看| 日韩亚洲欧美一区二区| 少妇**毛片| 久久久久久久国产精品视频| 国产日韩欧美二区| 精品久久9999| 性欧美一区二区| 岛国精品一区二区| 一区二区三区国产精品| 久久国产中文字幕| 国产馆一区二区| 国产全肉乱妇杂乱视频在线观看| 丝袜脚交一区二区| 久久婷婷国产香蕉| 精品美女一区二区三区| 久久精品入口九色| 男女午夜爽爽| 国产精品一二三区视频网站| 亚洲欧美一二三| 久久精品99国产精品亚洲最刺激| 理论片午午伦夜理片在线播放 | 国内精品久久久久影院日本| 小萝莉av| 国内自拍偷拍一区| 午夜影院色| 免费看欧美中韩毛片影院| 销魂美女一区二区| 国产另类一区| 日本一区中文字幕| 午夜爽爽爽男女免费观看| 欧美日韩一二三四区| 日本xxxx护士高潮hd| 国产精品国产三级国产专播精品人 | 精品一区二区三区自拍图片区| 欧美日韩卡一卡二| 国产高清一区在线观看| 亚洲欧洲一区二区| 最新国产一区二区| 国产午夜一级一片免费播放| 日韩精品一区二区三区四区在线观看| ass韩国白嫩pics| 国产日韩欧美色图| 日本精品一二区| 一区二区欧美视频| 日本中文字幕一区| 特高潮videossexhd| 在线观看欧美一区二区三区| 国产精品综合在线观看| 日韩欧美一区二区久久婷婷| 国产一区激情| 91精品综合| 欧美一区二区三区免费播放视频了| 国产精品一二三区视频网站| 少妇自拍一区| 精品久久久久久亚洲综合网| 精品中文久久| 国产乱人伦精品一区二区三区| 国产一区不卡视频| 亚洲欧美自拍一区| 欧美一区二区三区久久综合| 国产日本欧美一区二区三区| 日本黄页在线观看| 99re国产精品视频|