[發明專利]一種基于PDF文檔的知識圖譜構建方法、系統、設備及存儲介質在審
| 申請號: | 202211418911.7 | 申請日: | 2022-11-14 |
| 公開(公告)號: | CN115687655A | 公開(公告)日: | 2023-02-03 |
| 發明(設計)人: | 張明 | 申請(專利權)人: | 新華智云科技有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/34;G06F40/117;G06F40/151;G06F40/258;G06F40/295 |
| 代理公司: | 杭州裕陽聯合專利代理有限公司 33289 | 代理人: | 楊琪宇 |
| 地址: | 310012 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 pdf 文檔 知識 圖譜 構建 方法 系統 設備 存儲 介質 | ||
本申請公開了一種基于PDF文檔的知識圖譜構建方法、系統、設備及存儲介質,涉及數據挖掘技術領域,包括以下步驟:將PDF文檔按照頁碼拆分為若干第一圖片,并對每個第一圖片進行光學文字識別和標題識別得到若干第一純文本;將所有第一純文本進行拼接得到第二純文本,并根據識別出的標題將第二純文本劃分成多個章節文本;對每個章節文本進行實體識別和實體關系提取,并根據得到的實體和實體關系構建所述PDF文檔對應的知識圖譜。本申請為PDF格式的書籍提供了一種自動化構建知識圖譜的方法,不僅可以保留書籍中的章節信息,還可以對具體章節進行圖譜分析,滿足了業務場景的多樣化需求。
技術領域
本申請涉及數據挖掘技術領域,尤其涉及一種基于PDF文檔的知識圖譜構建方法、系統、設備及存儲介質。
背景技術
現階段自動化生成知識圖譜的原始數據主要是文本數據,基于文本數據進行知識結構化信息抽取,進而生成該數據內容下的知識圖譜,但很多業務場景的數據是來源于書籍的非結構化PDF格式文件,需求是能夠將整本書的文字內容知識化解析,繼而生成知識圖譜,而現有技術中鮮少有針對書籍的PDF格式文件的文本信息進行知識圖譜構建的方案,且現有生成知識圖譜的方法多是針對一整篇輸入文本進行信息抽取,缺少對文本結構的層次信息抽取和融合,難以滿足僅對書籍中某個章節的文本信息進行圖譜分析與可視化的需求。
發明內容
本申請提供的一種基于PDF文檔的知識圖譜構建方法,旨在解決現有技術中不能根據文本層次結構單獨對輸入文檔中的各個章節進行知識圖譜構建的問題。
為實現上述目的,本申請采用以下技術方案:
本申請的一種基于PDF文檔的知識圖譜構建方法,包括以下步驟:
將PDF文檔按照頁碼拆分為若干第一圖片,并對每個第一圖片進行光學文字識別和標題識別得到若干第一純文本;
將所有第一純文本進行拼接得到第二純文本,并根據識別出的標題將所述第二純文本劃分成多個章節文本;
對每個章節文本進行實體識別和實體關系提取,并根據得到的實體和實體關系構建所述PDF文檔對應的知識圖譜。
作為優選,所述將PDF文檔按照頁碼拆分為若干第一圖片,包括:
按照頁碼將PDF文檔拆分為若干子文檔,并將每份子文檔轉換為圖片;
根據對應的頁碼對每張圖片進行編號,并裁剪掉每張圖片中的冗余信息生成若干第一圖片。
作為優選,所述對每個第一圖片進行光學文字識別和標題識別得到若干第一純文本,包括:
對每個第一圖片進行光學文字識別得到每個第一圖片包含的所有文本片段以及每個文本片段對應圖片的位置坐標和像素;
比對所有第一圖片中文本片段圖片的像素,將其中像素最大的圖片對應的文本片段作為候選章節標題;
根據每個候選章節標題對應圖片的位置坐標確定其在所有第一圖片中的位置,將位于所有第一圖片行中間的候選章節標題作為最終章節標題;
將每個第一圖片包含的所有文本片段進行拼接并在其中標記對應的最終章節標題得到若干第一純文本。
作為優選,所述將所有第一純文本進行拼接得到第二純文本,包括:
根據所述PDF文檔對每個第一純文本進行人工校驗,并根據頁碼將校驗后的所有第一純文本順序拼接成第二純文本。
作為優選,所述對每個章節文本進行實體識別和實體關系提取,并根據得到的實體和實體關系構建所述PDF文檔對應的知識圖譜,包括:
利用命名實體識別技術識別出每個章節文本中的實體,并根據共現原則確定每個章節文本中各個實體間的關系;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于新華智云科技有限公司,未經新華智云科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211418911.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種塑料管件夾持定位裝置
- 下一篇:一種用于方草捆機打結器的自動夾繩裝置





