日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種網頁信息抽取方法無效

專利信息
申請號: 201110409875.3 申請日: 2011-12-09
公開(公告)號: CN102495892A 公開(公告)日: 2012-06-13
發明(設計)人: 穗志方;李文杰 申請(專利權)人: 北京大學
主分類號: G06F17/30 分類號: G06F17/30
代理公司: 北京萬象新悅知識產權代理事務所(普通合伙) 11360 代理人: 蘇愛華
地址: 100871*** 國省代碼: 北京;11
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 網頁 信息 抽取 方法
【說明書】:

技術領域

發明提供一種網頁信息抽取方法,具體涉及一種從網絡百科數據源提取概念屬性并對其進行處理的方法。

背景技術

在互聯網文本呈現爆炸式增長的今天,如何合理有效地組織信息和表示知識,建立良好的知識庫以便于人們能從海量的網頁中迅速快捷地獲得自己想要的知識,是一項很重要的研究工作。在知識庫的構建中,概念和屬性是知識表示的核心要素。概念是反映客觀事物及其特有屬性的對象,而屬性是對概念所具有的特征的刻畫,從屬性信息能夠更全面地了解一個概念的特性。因此,在知識庫的自動構建中,找出一種良好的概念屬性的自動提取方法是非常重要的。

當前國內外的研究學者提出了很多的方法用來從結構化的或者非結構化的文本中提取概念屬性。谷歌公司的Pasca等人以web搜索引擎查詢日志為語料,利用手工指定的模板去抽取指定概念的屬性列表,還有一些人用web上存在的結構化的數據,例如HTML標簽表格,以及維基百科特有的信息框去獲得概念屬性。

但是當前的這些方法都存在一個問題,即僅僅只是提取出了一些候選屬性,并沒有對提取出的屬性進行后期的處理,導致提取出的候選屬性粒度比較粗糙,準確度不高,出現很多一義多詞的表達,質量比較差,得經過人工的挑選才能加入到知識庫中。并且這些方法沒有對屬性進行評價,因為有些屬性會和目標概念聯系得比較緊,有些聯系得則比較弱,將聯系較緊的屬性挑選出來能夠有利于進行概念的分類。比如搜索引擎公司有項任務是查詢日志的分類,當獲取了和相關概念聯系比較緊的屬性后,就可以通過判斷查詢日志中是否包含了這些屬性來更好地進行分類任務。

發明內容

本發明的目的是提供一種網頁信息抽取方法,能夠從百科類網站中提取概念屬性,提取出的屬性能直接用來進行知識庫的建設以及其他的自然語言處理任務。

本發明提供的技術方案如下:

一種網頁信息抽取方法,包括如下步驟:

A.構建實例列表,從多源異構數據源中提取列表中實例的候選屬性;

B.對提取到的屬性進行同義歸納,將同義屬性放在同一個集合中;

C.對歸納后的屬性進行細分類;

D.分析分類后的屬性所對應的屬性值類型;

E.將屬性及其對應的屬性值類型信息推薦給用戶或者將其保存到結構化數據庫中。

步驟A所述數據源為百科類網頁數據。

所述百科類網站包括:百度百科、維基百科、互動百科等。

所述步驟A的實現方法如下:

第一步:構建實例列表,獲取百科網頁數據:根據實例列表中的每一個實例,到百科數據源中獲得該實例詞條對應的網頁;

第二步:對網頁數據進行分析:對獲取到的網頁內容進行字符串處理,抽取出指定的結構化數據;

第三步:挑選候選屬性:對于每一種數據源,先單獨統計該數據源中出現的屬性,給每個屬性一個權重,所述屬性的權重為該屬性出現在該數據源中的頻率;然后再對不同數據源中的屬性進行融合,將每個屬性在不同的數據源中的置信度值累加起來作為其最后的權重;最后將屬性按照權重大小排序,只選擇出前N個屬性作為候選屬性,所述N為人工指定的常數。

所述步驟B的實現方法如下:

B1.抽取屬性對應的屬性值;

B2.計算屬性之間的相似性;

B3.用啟發式過濾規則對相似性屬性對進行挑選;

B4.合并相似屬性對,將同義屬性放在同一個集合中。

所述步驟B2的實現方法如下:

對于任意兩個不同的屬性att1和att2,計算其相似性值,將屬性att1和att2表示為att1={(V1,Conf1),(V2,Conf2),…,(VN,ConfN)}和att2={(V′1,Conf′1),(V′2,Conf′2),…,(V′N,Conf′N)},其中Vk和V′k是第k個屬性值,Confk和Conf′k是屬性值在該屬性中的權重,定義下面的公式來計算兩個屬性的相似性:

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學,未經北京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201110409875.3/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 国产伦精品一区二区三区四区| 国产一区二区免费在线| 国产一区二区电影在线观看| 国产精品日韩电影| 国产在线一区二区视频| 久久人人爽爽| 国产精品久久久综合久尹人久久9| 欧美一区二区三区免费在线观看| 中文字幕av一区二区三区高| 欧美网站一区二区三区| 国产精品视频二区不卡| 免费a一毛片| 久久aⅴ国产欧美74aaa| 久久午夜精品福利一区二区 | 夜色av网| 国产日韩欧美综合在线| 日日夜夜精品免费看 | 午夜三级电影院| 国产一级片自拍| 日本二区在线观看| 亚洲乱亚洲乱妇50p| 国产欧美日韩精品一区二区三区 | 久久精品视频偷拍| 国产麻豆一区二区| 国产精华一区二区精华| 国产精品久久久久久亚洲美女高潮| 一区二区三区在线观看国产| 国产亚洲综合一区二区| 一级黄色片免费网站| 午夜老司机电影| 91精品视频一区二区| 日韩精品免费一区| 午夜电影一区二区三区| 欧美黄色一二三区| 久久99精品国产麻豆婷婷| 性国产日韩欧美一区二区在线| 日韩欧美精品一区二区三区经典| 日韩av一二三四区| 色综合久久88| 亚洲欧美国产一区二区三区 | 国产精品久久久久久久综合| 免费看农村bbwbbw高潮| 久久人人97超碰婷婷开心情五月| 热久久国产| 久久国产精品免费视频| 国产精品视频二区三区| 欧美黄色片一区二区| 国产精华一区二区精华| 鲁丝一区二区三区免费观看| 狠狠色噜噜狠狠狠狠黑人| 午夜精品影视| 国产性猛交96| 国产专区一区二区| 午夜免费av电影| 亚洲欧美日韩综合在线| 国产二区三区视频| 激情久久一区二区| 久久国产精彩视频| 国产精品二区在线| 欧美日韩精品在线播放| 欧美精品免费看| 久久精品手机视频| 欧美日韩乱码| 色吊丝av中文字幕| 亚洲国产欧美一区二区三区丁香婷| 日本一区二区在线观看视频| 日本一区二区免费电影| 激情久久一区| 久久aⅴ国产欧美74aaa| 亚洲国产精品区| 国产欧美一区二区在线观看| 精品日韩久久久| 精品国产区一区二| 日韩精品中文字幕久久臀| 2023国产精品自产拍在线观看| 91看片免费| 玖玖玖国产精品| 亚洲少妇一区二区三区| 亚洲在线久久| 国产精品久久免费视频| 亚洲精品乱码久久久久久高潮| 国产大片黄在线观看私人影院|