[發明專利]文檔內容的提取方法、裝置、電子設備及存儲介質有效
| 申請號: | 202011487916.6 | 申請日: | 2020-12-16 |
| 公開(公告)號: | CN112579727B | 公開(公告)日: | 2022-03-22 |
| 發明(設計)人: | 曾凱;路華 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/33;G06F40/205;G06N20/00 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 韓海花 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文檔 內容 提取 方法 裝置 電子設備 存儲 介質 | ||
本申請公開了文檔內容的提取方法、裝置、電子設備及存儲介質,涉及自然語言處理、深度學習、知識圖譜等人工智能技術領域。具體實現方案為:獲取文檔;對文檔進行錨點搜索,以得到文檔對應的錨點信息;根據錨點信息,確定待提取內容的區域信息;以及根據區域信息,從文檔之中提取出待提取內容,能夠有效避免受到文檔內容布局的限制,有效地提升文檔內容提取的準確性和提取效率,提升文檔內容的提取效果。
技術領域
本申請涉及計算機技術領域,具體涉及自然語言處理、深度學習、知識圖譜等人工智能技術領域,尤其涉及文檔內容的提取方法、裝置、電子設備及存儲介質。
背景技術
人工智能是研究使計算機來模擬人的某些思維過程和智能行為(如學習、推理、思考、規劃等)的學科,既有硬件層面的技術也有軟件層面的技術。人工智能硬件技術一般包括如傳感器、專用人工智能芯片、云計算、分布式存儲、大數據處理等技術;人工智能軟件技術主要包括計算機視覺技術、語音識別技術、自然語言處理技術以及機器學習/深度學習、大數據處理技術、知識圖譜技術等幾大方向。
文檔中通常包含鍵值對和表格等,文檔提取,即對文檔進行內容識別,得到需求的鍵值對和表格等對應的實際內容。
發明內容
提供了一種文檔內容的提取方法、裝置、電子設備、存儲介質及計算機程序產品。
根據第一方面,提供了一種文檔內容的提取方法,包括:獲取文檔;對所述文檔進行錨點搜索,以得到所述文檔對應的錨點信息;根據所述錨點信息,確定待提取內容的區域信息;以及根據所述區域信息,從所述文檔之中提取出所述待提取內容。
根據第二方面,提供了一種文檔內容的提取裝置,包括:獲取模塊,用于獲取文檔;搜索模塊,用于對所述文檔進行錨點搜索,以得到所述文檔對應的錨點信息;確定模塊,用于根據所述錨點信息,確定待提取內容的區域信息;以及提取模塊,用于根據所述區域信息,從所述文檔之中提取出所述待提取內容。
根據第三方面,提供了一種電子設備,包括:至少一個處理器;以及與所述至少一個處理器通信連接的存儲器;其中,所述存儲器存儲有可被所述至少一個處理器執行的指令,所述指令被所述至少一個處理器執行,以使所述至少一個處理器能夠執行本申請實施例的文檔內容的提取方法。
根據第四方面,提出了一種存儲有計算機指令的非瞬時計算機可讀存儲介質,所述計算機指令用于使所述計算機執行本申請實施例公開的文檔內容的提取方法。
根據第五方面,提出了一種計算機程序產品,包括計算機程序,當所述計算機程序由處理器執行時實現本申請實施例公開的文檔內容的提取方法。
應當理解,本部分所描述的內容并非旨在標識本申請的實施例的關鍵或重要特征,也不用于限制本申請的范圍。本申請的其它特征將通過以下的說明書而變得容易理解。
附圖說明
附圖用于更好地理解本方案,不構成對本申請的限定。其中:
圖1是根據本申請第一實施例的示意圖;
圖2是本申請實施例中空間索引搜索樹的結構示意圖;
圖3是根據本申請第二實施例的示意圖;
圖4是根據本申請第三實施例的示意圖;
圖5是根據本申請第四實施例的示意圖;
圖6是用來實現本申請實施例的文檔內容的提取方法的電子設備的框圖。
具體實施方式
以下結合附圖對本申請的示范性實施例做出說明,其中包括本申請實施例的各種細節以助于理解,應當將它們認為僅僅是示范性的。因此,本領域普通技術人員應當認識到,可以對這里描述的實施例做出各種改變和修改,而不會背離本申請的范圍和精神。同樣,為了清楚和簡明,以下的描述中省略了對公知功能和結構的描述。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011487916.6/2.html,轉載請聲明來源鉆瓜專利網。
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





