[發(fā)明專利]表格信息提取方法、裝置和存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 201811280729.3 | 申請日: | 2018-10-30 |
| 公開(公告)號: | CN109710771B | 公開(公告)日: | 2020-10-09 |
| 發(fā)明(設(shè)計)人: | 李雙婕;黃昉;梁海金;張揚;朱勇 | 申請(專利權(quán))人: | 北京百度網(wǎng)訊科技有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/25 |
| 代理公司: | 北京同立鈞成知識產(chǎn)權(quán)代理有限公司 11205 | 代理人: | 榮甜甜;劉芳 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 表格 信息 提取 方法 裝置 存儲 介質(zhì) | ||
本發(fā)明提供一種表格信息提取方法、裝置和存儲介質(zhì)。該方法包括:確定待提取表格的表格類型,表格類型包括單實體類型和/或多實體類型;根據(jù)待提取表格的表格類型,提取待提取表格中的主體信息、客體信息以及主體和客體之間的關(guān)聯(lián)信息。本實施例提供的表格信息提取方法、裝置和存儲介質(zhì),首先識別待提取信息的表格的類型,然后根據(jù)表格類型在表格中提取信息,可準(zhǔn)確提取網(wǎng)頁表格中的內(nèi)容,避免了需為不同結(jié)構(gòu)的網(wǎng)頁配置不同提取模板,降低了網(wǎng)頁表格信息提取的成本,提高了表格信息提取效率,具有廣泛的適用范圍。
技術(shù)領(lǐng)域
本發(fā)明涉及網(wǎng)絡(luò)信息處理技術(shù)領(lǐng)域,尤其涉及一種表格信息提取方法、裝置和存儲介質(zhì)。
背景技術(shù)
知識圖譜是結(jié)構(gòu)化的語義知識庫,用于以符號形式描述物理世界中的概念及其相互關(guān)系,其基本組成單位是SPO(主體-關(guān)聯(lián)關(guān)系-客體)三元組,構(gòu)成網(wǎng)狀的知識結(jié)構(gòu)。SPO三元組中,S指示Subject(主體)、O指示Object(客體)、P指示Predicate(S與O之間的關(guān)聯(lián)關(guān)系)。例如,“張三身高為226cm”中,張三為S,226cm為O,身高為P。知識圖譜可以用來更好的查詢復(fù)雜的關(guān)聯(lián)信息,從語義層面理解用戶意圖,提升搜索質(zhì)量。
隨著信息技術(shù)的發(fā)展,互聯(lián)網(wǎng)上的資源越來越豐富。除了非結(jié)構(gòu)化數(shù)據(jù)外,還有大量的網(wǎng)絡(luò)表格存在,這些網(wǎng)絡(luò)表格較文本而言,具有更好的結(jié)構(gòu)化特性和更多的內(nèi)容信息。在知識圖譜構(gòu)建中,從網(wǎng)頁的表格中進(jìn)行表格信息提取,是一種不可或缺的信息提取手段。如何讓機(jī)器更好地理解網(wǎng)絡(luò)表格的語義成為提高表格搜索覆蓋率和準(zhǔn)確率的重大挑戰(zhàn)。
目前的網(wǎng)頁表格信息提取通常依靠人工基于網(wǎng)頁內(nèi)容配置特定的提取模板,來進(jìn)行表格信息提取,因此存在信息提取成本高、效率低的問題,而且需為不同結(jié)構(gòu)的網(wǎng)頁配置不同提取模板,也存在適用范圍較小的問題。
發(fā)明內(nèi)容
本發(fā)明提供一種表格信息提取方法、裝置和存儲介質(zhì),可解決現(xiàn)有的表格信息提取方法存在信息提取成本高、效率低、適用范圍較小的問題。
本發(fā)明的第一方面提供一種表格信息提取方法,包括:
確定待提取表格的表格類型,所述表格類型包括單實體類型和/或多實體類型;
根據(jù)所述待提取表格的表格類型,提取所述待提取表格中的主體信息、客體信息以及所述主體和所述客體之間的關(guān)聯(lián)信息。
可選的,當(dāng)所述待提取表格的表格類型為單實體類型,所述提取所述待提取表格中的主體信息、客體信息以及所述主體和所述客體之間的關(guān)聯(lián)信息,包括:
在所述待提取表格的表格簡介區(qū)域、所述待提取表格所在網(wǎng)頁的文字描述區(qū)域或者所述待提取表格所在網(wǎng)頁的文檔標(biāo)題中確定所述待提取表格中的主體信息,所述表格簡介區(qū)域包含所述待提取表格的主體信息;
在所述待提取表格中確定關(guān)聯(lián)信息所在的列/行,在所述關(guān)聯(lián)信息所在的列/行中,確定所述待提取表格的至少一個關(guān)聯(lián)信息以及所述關(guān)聯(lián)信息對應(yīng)的客體信息。
可選的,當(dāng)所述待提取表格的表格類型為多實體類型,所述提取所述待提取表格中的主體信息、客體信息以及所述主體和所述客體之間的關(guān)聯(lián)信息,包括:
在所述待提取表格中確定關(guān)聯(lián)信息所在的列/行,在所述關(guān)聯(lián)信息所在的列/行中,確定所述待提取表格的至少一個關(guān)聯(lián)信息;
在所述待提取表格中確定主體信息所在的行/列,在所述主體信息所在的行/列中,確定所述待提取表格的至少一個主體信息;
在所述待提取表格中確定每一對關(guān)聯(lián)信息和主體信息對應(yīng)的客體信息。
可選的,所述確定待提取表格的表格類型之前,所述表格信息提取方法還包括:
確定所述待提取表格中的表格簡介區(qū)域,所述表格簡介區(qū)域包含所述待提取表格的主體信息;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京百度網(wǎng)訊科技有限公司,未經(jīng)北京百度網(wǎng)訊科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811280729.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 版式表格的結(jié)構(gòu)處理方法和系統(tǒng)
- 多欄多列表格的展示方法
- 一種在移動端展示長表格的交互方法及系統(tǒng)裝置
- 一種在移動端縱向展示長表格的交互方法及系統(tǒng)裝置
- 一種在移動端橫向展示長表格的交互方法及系統(tǒng)裝置
- 表格圖像解析方法、裝置、計算機(jī)設(shè)備及存儲介質(zhì)
- 一種針對PDF文檔表格提取優(yōu)化方法及系統(tǒng)
- 一種自動生成表格數(shù)據(jù)的方法及裝置
- 一種批量合并表格內(nèi)容的方法、系統(tǒng)、裝置和存儲介質(zhì)
- 表格渲染顯示方法、裝置、計算機(jī)設(shè)備和存儲介質(zhì)
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





