[發明專利]一種網頁信息抽取方法無效
| 申請號: | 201110409875.3 | 申請日: | 2011-12-09 |
| 公開(公告)號: | CN102495892A | 公開(公告)日: | 2012-06-13 |
| 發明(設計)人: | 穗志方;李文杰 | 申請(專利權)人: | 北京大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京萬象新悅知識產權代理事務所(普通合伙) 11360 | 代理人: | 蘇愛華 |
| 地址: | 100871*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網頁 信息 抽取 方法 | ||
技術領域
本發明提供一種網頁信息抽取方法,具體涉及一種從網絡百科數據源提取概念屬性并對其進行處理的方法。
背景技術
在互聯網文本呈現爆炸式增長的今天,如何合理有效地組織信息和表示知識,建立良好的知識庫以便于人們能從海量的網頁中迅速快捷地獲得自己想要的知識,是一項很重要的研究工作。在知識庫的構建中,概念和屬性是知識表示的核心要素。概念是反映客觀事物及其特有屬性的對象,而屬性是對概念所具有的特征的刻畫,從屬性信息能夠更全面地了解一個概念的特性。因此,在知識庫的自動構建中,找出一種良好的概念屬性的自動提取方法是非常重要的。
當前國內外的研究學者提出了很多的方法用來從結構化的或者非結構化的文本中提取概念屬性。谷歌公司的Pasca等人以web搜索引擎查詢日志為語料,利用手工指定的模板去抽取指定概念的屬性列表,還有一些人用web上存在的結構化的數據,例如HTML標簽表格,以及維基百科特有的信息框去獲得概念屬性。
但是當前的這些方法都存在一個問題,即僅僅只是提取出了一些候選屬性,并沒有對提取出的屬性進行后期的處理,導致提取出的候選屬性粒度比較粗糙,準確度不高,出現很多一義多詞的表達,質量比較差,得經過人工的挑選才能加入到知識庫中。并且這些方法沒有對屬性進行評價,因為有些屬性會和目標概念聯系得比較緊,有些聯系得則比較弱,將聯系較緊的屬性挑選出來能夠有利于進行概念的分類。比如搜索引擎公司有項任務是查詢日志的分類,當獲取了和相關概念聯系比較緊的屬性后,就可以通過判斷查詢日志中是否包含了這些屬性來更好地進行分類任務。
發明內容
本發明的目的是提供一種網頁信息抽取方法,能夠從百科類網站中提取概念屬性,提取出的屬性能直接用來進行知識庫的建設以及其他的自然語言處理任務。
本發明提供的技術方案如下:
一種網頁信息抽取方法,包括如下步驟:
A.構建實例列表,從多源異構數據源中提取列表中實例的候選屬性;
B.對提取到的屬性進行同義歸納,將同義屬性放在同一個集合中;
C.對歸納后的屬性進行細分類;
D.分析分類后的屬性所對應的屬性值類型;
E.將屬性及其對應的屬性值類型信息推薦給用戶或者將其保存到結構化數據庫中。
步驟A所述數據源為百科類網頁數據。
所述百科類網站包括:百度百科、維基百科、互動百科等。
所述步驟A的實現方法如下:
第一步:構建實例列表,獲取百科網頁數據:根據實例列表中的每一個實例,到百科數據源中獲得該實例詞條對應的網頁;
第二步:對網頁數據進行分析:對獲取到的網頁內容進行字符串處理,抽取出指定的結構化數據;
第三步:挑選候選屬性:對于每一種數據源,先單獨統計該數據源中出現的屬性,給每個屬性一個權重,所述屬性的權重為該屬性出現在該數據源中的頻率;然后再對不同數據源中的屬性進行融合,將每個屬性在不同的數據源中的置信度值累加起來作為其最后的權重;最后將屬性按照權重大小排序,只選擇出前N個屬性作為候選屬性,所述N為人工指定的常數。
所述步驟B的實現方法如下:
B1.抽取屬性對應的屬性值;
B2.計算屬性之間的相似性;
B3.用啟發式過濾規則對相似性屬性對進行挑選;
B4.合并相似屬性對,將同義屬性放在同一個集合中。
所述步驟B2的實現方法如下:
對于任意兩個不同的屬性att1和att2,計算其相似性值,將屬性att1和att2表示為att1={(V1,Conf1),(V2,Conf2),…,(VN,ConfN)}和att2={(V′1,Conf′1),(V′2,Conf′2),…,(V′N,Conf′N)},其中Vk和V′k是第k個屬性值,Confk和Conf′k是屬性值在該屬性中的權重,定義下面的公式來計算兩個屬性的相似性:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學,未經北京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110409875.3/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





