[發(fā)明專利]一種從網(wǎng)頁中抽取對象屬性值信息的方法和系統(tǒng)有效
| 申請?zhí)枺?/td> | 201110047574.0 | 申請日: | 2011-02-28 |
| 公開(公告)號: | CN102650999A | 公開(公告)日: | 2012-08-29 |
| 發(fā)明(設計)人: | 孫軍;謝宣松;姜珊珊;趙利軍;鄭繼川 | 申請(專利權)人: | 株式會社理光 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京市柳沈律師事務所 11105 | 代理人: | 黃小臨 |
| 地址: | 日本*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網(wǎng)頁 抽取 對象 屬性 信息 方法 系統(tǒng) | ||
1.一種從網(wǎng)頁中抽取對象屬性值信息的方法,包括:
a)對于一個給定網(wǎng)頁,得到與該給定網(wǎng)頁對應的文檔對象模型DOM樹,并計算DOM樹中的每個DOM節(jié)點的相關信息;
b)根據(jù)DOM樹和每個DOM節(jié)點的相關信息,構(gòu)造一個帶標簽節(jié)點圖,并且計算每個帶標簽節(jié)點的分數(shù);
c)基于帶標簽節(jié)點的分數(shù),從得到的帶標簽節(jié)點圖選擇帶標簽節(jié)點樹;
d)基于選中的帶標簽節(jié)點樹構(gòu)造屬性值樹。
2.根據(jù)權利要求1所述的方法,其中所述相關信息包括:1)以每個DOM節(jié)點為根節(jié)點的DOM子樹中的DOM節(jié)點的名字、類型和值;2)以每個DOM節(jié)點為根節(jié)點的DOM子樹的結(jié)構(gòu);3)以每個DOM節(jié)點為根節(jié)點的DOM子樹中的DOM節(jié)點的視覺信息。
3.根據(jù)權利要求1所述的方法,其中,帶標簽節(jié)點圖由多個帶標簽節(jié)點構(gòu)成,給定的網(wǎng)頁中每個DOM節(jié)點對應于多個帶標簽節(jié)點,而且每個帶標簽節(jié)點包含一個標簽和一個分數(shù),標簽代表了以DOM節(jié)點為根節(jié)點的DOM子樹的一個分類。
4.根據(jù)權利要求1所述的方法,步驟b)進一步包括:
b1)以如下順序選擇一個DOM節(jié)點:每次選中一個未處理的DOM葉節(jié)點或者是本身未處理但是每個孩子都是已處理節(jié)點的DOM節(jié)點;
b2)對于選中的DOM節(jié)點,窮舉該選中的DOM節(jié)點的可能的帶標簽節(jié)點,對于選中的DOM節(jié)點所對應的每個帶標簽節(jié)點:
構(gòu)造當前處理的帶標簽節(jié)點的所有候選孩子結(jié)構(gòu),計算每個候選孩子結(jié)構(gòu)的分數(shù);并且
選擇分數(shù)最大的候選孩子結(jié)構(gòu)作為當前處理的帶標簽節(jié)點的孩子結(jié)構(gòu),得到的最大分數(shù)記錄為當前處理的帶標簽節(jié)點的分數(shù);
b3)判斷是否還有未處理的DOM節(jié)點,如果有則轉(zhuǎn)到步驟b1);
b4)如果所有的DOM節(jié)點處理完之后,得到帶標簽節(jié)點圖,此圖由帶標簽節(jié)點和選中的孩子結(jié)構(gòu)構(gòu)成。
5.根據(jù)權利要求4所述的方法,其中每個候選孩子結(jié)構(gòu)包含對應于當前考慮的DOM節(jié)點的DOM子孫節(jié)點的一個或多個帶標簽節(jié)點;候選孩子結(jié)構(gòu)中的帶標簽節(jié)點是序列關系或者層級關系;在帶標簽節(jié)點圖中,從帶標簽節(jié)點到它孩子結(jié)構(gòu)中的每個帶標簽節(jié)點之間都有個鏈接。
6.根據(jù)權利要求5所述的方法,其中,每個候選孩子結(jié)構(gòu)的分數(shù)的計算是對如下五個要素的一個或多個的線性加權:1)帶標簽孩子節(jié)點的分數(shù);2)同一層級的帶標簽孩子節(jié)點之間的相似度分數(shù);3)不同層級的帶標簽孩子節(jié)點之間的層級分數(shù);4)帶標簽孩子節(jié)點的布局分數(shù);5)如果對于相同領域的對象已有一些之前抽取的屬性值樹,則可以進一步包含內(nèi)容分數(shù)。
7.根據(jù)權利要求1所述的方法,步驟c)進一步包括:
c1)從當前帶標簽節(jié)點圖中選擇分數(shù)最高的帶標簽節(jié)點;
c2)判斷該分數(shù)是否小于第一閾值;如果是,則結(jié)束;
c3)如果該分數(shù)大于第一閾值,則得到選中的帶標簽節(jié)點對應的帶標簽節(jié)點樹,并輸出帶標簽節(jié)點樹;
c4)判斷已經(jīng)得到的帶標簽節(jié)點樹的數(shù)目是否大于第二閾值,如果是,則結(jié)束;
c5)如果已經(jīng)得到的帶標簽節(jié)點樹的數(shù)目是否小于第二閾值,則得到選中的帶標簽節(jié)點樹中含有的帶標簽節(jié)點所對應的DOM節(jié)點,從帶標簽節(jié)點圖中去除得到的DOM節(jié)點所對應的其他帶標簽節(jié)點,并轉(zhuǎn)向步驟c1)。
8.根據(jù)權利要求1所述的方法,其中一個屬性值樹包含多個概念節(jié)點;屬性值樹的每個概念節(jié)點都有一小段文本,每個概念葉節(jié)點代表一個對象屬性的值;每個概念非葉節(jié)點代表不同級別的屬性名。
9.根據(jù)權利要求8所述的方法,步驟d)進一步包括:
d1)構(gòu)造一個輔助的概念根節(jié)點;
d2)對于每個選中的帶標簽節(jié)點樹的帶標簽根節(jié)點,給定此帶標簽根節(jié)點和輔助的概念根節(jié)點,構(gòu)造部分屬性值樹;
d3)得到屬性值樹,其根節(jié)點為輔助的概念根節(jié)點,如果需要的話,去掉概念根節(jié)點,可以得到一個或多個屬性值樹。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于株式會社理光,未經(jīng)株式會社理光許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110047574.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





