[發(fā)明專利]一種網(wǎng)頁內(nèi)容抽取裝置和方法有效
| 申請?zhí)枺?/td> | 201310464472.8 | 申請日: | 2013-10-08 |
| 公開(公告)號: | CN103559202A | 公開(公告)日: | 2014-02-05 |
| 發(fā)明(設(shè)計)人: | 王志剛 | 申請(專利權(quán))人: | 北京奇虎科技有限公司;奇智軟件(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京市隆安律師事務(wù)所 11323 | 代理人: | 權(quán)鮮枝;何立春 |
| 地址: | 100088 北京市西城區(qū)新*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 網(wǎng)頁 內(nèi)容 抽取 裝置 方法 | ||
1.一種網(wǎng)頁內(nèi)容抽取裝置,其中,該裝置包括:
訓(xùn)練單元,適于根據(jù)訓(xùn)練數(shù)據(jù)定義不同類型的塊,以及不同的分類特征;
其中,網(wǎng)頁由多個不同類型的塊組成,每種類型的塊對應(yīng)一個分類特征值集合,一個分類特征值集合由分別取對應(yīng)特定值的一個或多個分類特征組成,不同類型的塊通過各自對應(yīng)的分類特征值集合進行區(qū)分;
解析單元,適于將當(dāng)前網(wǎng)頁解析成文檔對象模型DOM樹;
特征獲取單元,適于獲取所述DOM樹的每個結(jié)點的分類特征值集合;
塊類型確定單元,適于根據(jù)所定義的所有分類特征以及每種類型的塊對應(yīng)的分類特征值集合,確定所述DOM樹的每個結(jié)點是否為塊,以及塊的類型;
內(nèi)容抽取單元,適于對所述DOM樹的被確定為塊的結(jié)點,如果對應(yīng)的塊類型為需要抽取的類型,則取出該結(jié)點的內(nèi)容。
2.如權(quán)利要求1所述的裝置,其中,
所述特征獲取單元,適于采用后根遍歷方式獲得所述DOM樹的每個結(jié)點的分類特征值集合。
3.如權(quán)利要求1所述的裝置,其中,
所述塊類型確定單元,適于將所定義的所有分類特征以及每種類型的塊對應(yīng)的分類特征值集合輸入決策樹,利用決策樹按照先根遍歷方式判決所述DOM樹的每個結(jié)點是否為塊,以及塊的類型,并按照遍歷的順序輸出塊序列。
4.如權(quán)利要求3所述的裝置,其中,該裝置進一步包括:
糾錯單元,適于利用條件隨機場CRF對所述塊類型確定單元輸出的塊序列中的塊的類型進行糾錯處理。
5.如權(quán)利要求1至4中任一項所述的裝置,其中,
所述訓(xùn)練單元,進一步適于根據(jù)新增的訓(xùn)練數(shù)據(jù)對分類特征和/或塊的類型進行擴充,使得后續(xù)根據(jù)擴充后的結(jié)果進行網(wǎng)頁內(nèi)容抽取。
6.一種網(wǎng)頁內(nèi)容抽取方法,其中,包括:
根據(jù)訓(xùn)練數(shù)據(jù)定義不同類型的塊,以及不同的分類特征;其中,網(wǎng)頁由多個不同類型的塊組成,每種類型的塊對應(yīng)一個分類特征值集合,一個分類特征值集合由分別取對應(yīng)特定值的一個或多個分類特征組成,不同類型的塊通過各自對應(yīng)的分類特征值集合進行區(qū)分;
將當(dāng)前網(wǎng)頁解析成文檔對象模型DOM樹;
獲取所述DOM樹的每個結(jié)點的分類特征值集合;
根據(jù)所定義的所有分類特征以及每種類型的塊對應(yīng)的分類特征值集合,確定所述DOM樹的每個結(jié)點是否為塊,以及塊的類型;
對于所述DOM樹的被確定為塊的結(jié)點,如果對應(yīng)的塊類型為需要抽取的類型,則取出該結(jié)點的內(nèi)容。
7.如權(quán)利要求6所述的方法,其中,所述獲取所述DOM樹的每個結(jié)點的分類特征值集合包括:
采用后根遍歷方式獲得所述DOM樹的每個結(jié)點的分類特征值集合。
8.如權(quán)利要求6所述的方法,其中,所述根據(jù)所定義的所有分類特征以及每種類型的塊對應(yīng)的分類特征值集合,確定所述DOM樹的每個結(jié)點是否為塊,以及塊的類型包括:
將所定義的所有分類特征以及每種類型的塊對應(yīng)的分類特征值集合輸入決策樹,利用決策樹按照先根遍歷方式判決所述DOM樹的每個結(jié)點是否為塊,以及塊的類型,并按照遍歷的順序輸出塊序列。
9.如權(quán)利要求8所述的方法,其中,在所述按照遍歷的順序輸出塊序列之后,該方法進一步包括:利用條件隨機場CRF對所述塊序列中的塊的類型進行糾錯處理。
10.如權(quán)利要求6至9中任一項所述的方法,其中,該方法進一步包括:根據(jù)新增的訓(xùn)練數(shù)據(jù)對分類特征和/或塊的類型進行擴充;
后續(xù)根據(jù)擴充后的結(jié)果進行網(wǎng)頁內(nèi)容抽取。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京奇虎科技有限公司;奇智軟件(北京)有限公司,未經(jīng)北京奇虎科技有限公司;奇智軟件(北京)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310464472.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 內(nèi)容再現(xiàn)系統(tǒng)、內(nèi)容提供方法、內(nèi)容再現(xiàn)裝置、內(nèi)容提供裝置、內(nèi)容再現(xiàn)程序和內(nèi)容提供程序
- 內(nèi)容記錄系統(tǒng)、內(nèi)容記錄方法、內(nèi)容記錄設(shè)備和內(nèi)容接收設(shè)備
- 內(nèi)容服務(wù)系統(tǒng)、內(nèi)容服務(wù)器、內(nèi)容終端及內(nèi)容服務(wù)方法
- 內(nèi)容分發(fā)系統(tǒng)、內(nèi)容分發(fā)裝置、內(nèi)容再生終端及內(nèi)容分發(fā)方法
- 內(nèi)容發(fā)布、內(nèi)容獲取的方法、內(nèi)容發(fā)布裝置及內(nèi)容傳播系統(tǒng)
- 內(nèi)容提供裝置、內(nèi)容提供方法、內(nèi)容再現(xiàn)裝置、內(nèi)容再現(xiàn)方法
- 內(nèi)容傳輸設(shè)備、內(nèi)容傳輸方法、內(nèi)容再現(xiàn)設(shè)備、內(nèi)容再現(xiàn)方法、程序及內(nèi)容分發(fā)系統(tǒng)
- 內(nèi)容發(fā)送設(shè)備、內(nèi)容發(fā)送方法、內(nèi)容再現(xiàn)設(shè)備、內(nèi)容再現(xiàn)方法、程序及內(nèi)容分發(fā)系統(tǒng)
- 內(nèi)容再現(xiàn)裝置、內(nèi)容再現(xiàn)方法、內(nèi)容再現(xiàn)程序及內(nèi)容提供系統(tǒng)
- 內(nèi)容記錄裝置、內(nèi)容編輯裝置、內(nèi)容再生裝置、內(nèi)容記錄方法、內(nèi)容編輯方法、以及內(nèi)容再生方法





