[發(fā)明專利]網(wǎng)頁中的目標(biāo)對象提取方法、裝置、電子設(shè)備有效
| 申請?zhí)枺?/td> | 202011349069.7 | 申請日: | 2020-11-26 |
| 公開(公告)號: | CN112395418B | 公開(公告)日: | 2021-09-03 |
| 發(fā)明(設(shè)計)人: | 張浩波;張學(xué)哲;王小鳳 | 申請(專利權(quán))人: | 上海攜寧計算機科技股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/295;G06F16/951 |
| 代理公司: | 上海晨皓知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 31260 | 代理人: | 成麗杰 |
| 地址: | 200030 上*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 網(wǎng)頁 中的 目標(biāo) 對象 提取 方法 裝置 電子設(shè)備 | ||
本發(fā)明實施例涉及數(shù)據(jù)處理領(lǐng)域,公開了網(wǎng)頁中的目標(biāo)對象提取方法、裝置、電子設(shè)備、存儲介質(zhì)。本發(fā)明中,獲取網(wǎng)頁的子表格;其中,所述子表格為所述網(wǎng)頁中未嵌套表格的表格;根據(jù)所述子表格中各單元格的文本屬性值和合并單元格屬性值獲取二維表數(shù)據(jù);其中,所述二維表數(shù)據(jù)的行數(shù)據(jù)中的各拆分單元格數(shù)據(jù)為預(yù)設(shè)字符串或文本屬性值,所述拆分單元格數(shù)據(jù)的個數(shù)根據(jù)所述合并單元格屬性值確定;根據(jù)所述二維表數(shù)據(jù)提取網(wǎng)頁中的目標(biāo)對象。本實施例減少了讀取合并單元格時,數(shù)據(jù)的重復(fù),從而提高了實體提取的準(zhǔn)確度,另外,以文本屬性值讀取網(wǎng)頁的表格數(shù)據(jù),從而保證了讀取的數(shù)值的精度。
技術(shù)領(lǐng)域
本發(fā)明實施例涉及數(shù)據(jù)處理領(lǐng)域,特別涉及一種網(wǎng)頁中的目標(biāo)對象提取方法、裝置、電子設(shè)備、存儲介質(zhì)。
背景技術(shù)
在現(xiàn)實中,存在大量的網(wǎng)頁,且對于不同的網(wǎng)站中的網(wǎng)頁或者相同網(wǎng)站中不同的網(wǎng)頁中信息表示形式也是各種各樣的,其中,有大量的網(wǎng)頁中的信息都是以表格形式存在的。相關(guān)技術(shù),在對網(wǎng)頁中的表格進(jìn)行提取時通過Python模塊pandas將表格解析為嵌套列表。pandas是基于NumPy的一種工具,該工具是為了解決數(shù)據(jù)分析任務(wù)而創(chuàng)建的。Pandas納入了大量庫和一些標(biāo)準(zhǔn)的數(shù)據(jù)模型,提供了高效地操作大型數(shù)據(jù)集所需的工具。
然而,相關(guān)技術(shù)中使用python模塊pandas解析網(wǎng)頁中的表格,當(dāng)出現(xiàn)合并單元格時,會將合并單元格的數(shù)據(jù)解析成多個重復(fù)的數(shù)據(jù),使得在讀取表格的時候,讀取的數(shù)據(jù)會有重復(fù),從而在針對讀取的數(shù)據(jù)進(jìn)行分析,提取網(wǎng)頁中的目標(biāo)對象時,由于目標(biāo)對象的上下文出現(xiàn)重復(fù)數(shù)據(jù),從而導(dǎo)致目標(biāo)對象的上下文信息判定錯誤,提取的目標(biāo)對象不準(zhǔn)確。
發(fā)明內(nèi)容
本發(fā)明實施方式的目的在于提供一種網(wǎng)頁中的目標(biāo)對象提取方法、裝置、電子設(shè)備、存儲介質(zhì),在網(wǎng)頁的表格中有合并的單元格時,能夠避免重復(fù)讀取單元格的數(shù)據(jù),使得提取的目標(biāo)對象更加準(zhǔn)確。
為解決上述技術(shù)問題,本發(fā)明的實施方式提供了一種網(wǎng)頁中的目標(biāo)對象提取方法,包括以下步驟:獲取網(wǎng)頁的子表格;其中,所述子表格為所述網(wǎng)頁中未嵌套表格的表格;根據(jù)所述子表格中各單元格的文本屬性值和合并單元格屬性值獲取二維表數(shù)據(jù);其中,所述二維表數(shù)據(jù)的行數(shù)據(jù)中的各拆分單元格數(shù)據(jù)為預(yù)設(shè)字符串或文本屬性值,所述拆分單元格數(shù)據(jù)的個數(shù)根據(jù)所述合并單元格屬性值確定;根據(jù)所述二維表數(shù)據(jù)提取所述網(wǎng)頁中的目標(biāo)對象。
本發(fā)明的實施方式還提供了一種網(wǎng)頁中的目標(biāo)對象提取方法,包括:根據(jù)上述實施方式中的網(wǎng)頁中的目標(biāo)對象提取方法提取中標(biāo)公告網(wǎng)頁中的目標(biāo)對象。
本發(fā)明的實施例還提供了一種網(wǎng)頁中的目標(biāo)對象提取裝置,包括:子表格獲取模塊,用于獲取網(wǎng)頁的子表格,其中,所述子表格為所述網(wǎng)頁中未嵌套表格的表格;二維表數(shù)據(jù)獲取模塊,用于根據(jù)所述子表格中各單元格的文本屬性值和合并單元格屬性值獲取二維表數(shù)據(jù);其中,所述二維表數(shù)據(jù)的行數(shù)據(jù)中的各拆分單元格數(shù)據(jù)為預(yù)設(shè)字符串或文本屬性值,所述拆分單元格數(shù)據(jù)的個數(shù)根據(jù)合并單元格屬性值確定;目標(biāo)對象獲取模塊,用于根據(jù)所述二維表數(shù)據(jù)提取所述網(wǎng)頁中的目標(biāo)對象。
本發(fā)明的實施例還提供了一種電子設(shè)備,包括:至少一個處理器;以及,與所述至少一個處理器通信連接的存儲器;其中,所述存儲器存儲有可被所述至少一個處理器執(zhí)行的指令,所述指令被所述至少一個處理器執(zhí)行,以使所述至少一個處理器能夠執(zhí)行上述的網(wǎng)頁中的目標(biāo)對象提取方法。
本發(fā)明的實施方式還提供了一種計算機可讀存儲介質(zhì),存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)上述的網(wǎng)頁中的目標(biāo)對象提取方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海攜寧計算機科技股份有限公司,未經(jīng)上海攜寧計算機科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011349069.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種熔噴布結(jié)粒機
- 下一篇:一種熱水器用電子智能冷熱分流水閥
- 目標(biāo)檢測裝置、學(xué)習(xí)裝置、目標(biāo)檢測系統(tǒng)及目標(biāo)檢測方法
- 目標(biāo)監(jiān)測方法、目標(biāo)監(jiān)測裝置以及目標(biāo)監(jiān)測程序
- 目標(biāo)監(jiān)控系統(tǒng)及目標(biāo)監(jiān)控方法
- 目標(biāo)跟蹤方法和目標(biāo)跟蹤設(shè)備
- 目標(biāo)跟蹤方法和目標(biāo)跟蹤裝置
- 目標(biāo)檢測方法和目標(biāo)檢測裝置
- 目標(biāo)跟蹤方法、目標(biāo)跟蹤裝置、目標(biāo)跟蹤設(shè)備
- 目標(biāo)處理方法、目標(biāo)處理裝置、目標(biāo)處理設(shè)備及介質(zhì)
- 目標(biāo)處理方法、目標(biāo)處理裝置、目標(biāo)處理設(shè)備及介質(zhì)
- 目標(biāo)跟蹤系統(tǒng)及目標(biāo)跟蹤方法





