[發(fā)明專利]一種電子文檔結(jié)構(gòu)化方法在審
| 申請(qǐng)?zhí)枺?/td> | 202011578098.0 | 申請(qǐng)日: | 2020-12-28 |
| 公開(公告)號(hào): | CN112800719A | 公開(公告)日: | 2021-05-14 |
| 發(fā)明(設(shè)計(jì))人: | 孟鑫 | 申請(qǐng)(專利權(quán))人: | 北京思題科技有限公司 |
| 主分類號(hào): | G06F40/111 | 分類號(hào): | G06F40/111;G06F40/114;G06F40/117;G06F40/151 |
| 代理公司: | 北京世譽(yù)鑫誠專利代理有限公司 11368 | 代理人: | 孫國棟 |
| 地址: | 100089 北京市海淀*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 電子 文檔 結(jié)構(gòu) 方法 | ||
本發(fā)明公開的電子文檔結(jié)構(gòu)化方法,通過識(shí)別電子文檔的類型,根據(jù)該類型,對(duì)電子文檔的內(nèi)容進(jìn)行標(biāo)注,提高了效率及適用性,避免了垃圾數(shù)據(jù)的產(chǎn)生。
技術(shù)領(lǐng)域
本發(fā)明涉及溫度采集技術(shù)領(lǐng)域,具體涉及一種電子文檔結(jié)構(gòu)化方法。
背景技術(shù)
目前數(shù)據(jù)結(jié)構(gòu)化有如下幾種方案:
(1)直接在線編輯、手工錄入:通過打字、復(fù)制粘貼的方式來實(shí)現(xiàn)數(shù)據(jù)的生成和結(jié)構(gòu)化;
(2)通過在word文檔中打標(biāo)記,再經(jīng)過word解析程序?qū)ord文檔進(jìn)行解析,最后對(duì)打標(biāo)記時(shí)打的標(biāo)簽進(jìn)行比對(duì)、識(shí)別,完成word文檔中數(shù)據(jù)的結(jié)構(gòu)化。
該方案存在以下缺陷:
(1)支持文檔格式少,僅支持word文檔;
(2)手工在word文檔中打標(biāo)簽容易出錯(cuò),且出錯(cuò)后不能及時(shí)發(fā)現(xiàn);
(3)Word文檔因格式問題導(dǎo)致內(nèi)容解析錯(cuò)誤(串行、丟失、多內(nèi)容等)不能及時(shí)發(fā)現(xiàn);
(4)若文檔中有與標(biāo)簽一致的內(nèi)容是,會(huì)造成word解析程序?qū)?nèi)容的誤判,導(dǎo)致結(jié)果不正確;
(5)只能等word內(nèi)容解析完成且導(dǎo)入系統(tǒng)之后才能核對(duì)解析結(jié)果是否正確,且人工核對(duì)效率低;
(6)解析結(jié)果出問題時(shí),需要調(diào)整word文檔內(nèi)容后再次導(dǎo)入,導(dǎo)致系統(tǒng)中垃圾數(shù)據(jù)越積越多。
發(fā)明內(nèi)容
為解決現(xiàn)有技術(shù)的不足,本發(fā)明實(shí)施例提供了一種電子文檔結(jié)構(gòu)化方法,該方法包括以下步驟:
識(shí)別電子文檔的類型,其中,類型包括word類型、pdf類型、txt類型、jpg類型、png類型、bmp類型、zip類型;
根據(jù)所述類型,對(duì)所述電子文檔的內(nèi)容進(jìn)行標(biāo)注。
優(yōu)選地,根據(jù)所述類型,對(duì)所述電子文檔的內(nèi)容進(jìn)行標(biāo)注包括:
對(duì)Word、txt類型的電子文檔,解析所述電子文檔并提取所述電子文檔中的文本;
對(duì)特殊類型的電子文檔,采用html標(biāo)記的方式進(jìn)行標(biāo)識(shí),生成所述電子文檔的識(shí)別結(jié)果;
對(duì)于pdf類型的電子文檔,生成相應(yīng)的png圖片,根據(jù)png圖片的處理方式處理所述電子文檔;
對(duì)于僅包含圖片的zip類型的電子文檔,將所述電子文檔解壓后,按照?qǐng)D片的方式處理所述電子文檔;
對(duì)于jpg、png、bmp類型的電子文檔,按照?qǐng)D片的方式處理所述電子文檔。
優(yōu)選地,按照?qǐng)D片的方式處理所述電子文檔包括:
將所述電子文檔作為一頁呈現(xiàn)在web界面上并對(duì)所述電子文檔的結(jié)構(gòu)進(jìn)行標(biāo)注,其中,標(biāo)注的內(nèi)容包括獨(dú)立圖片、行內(nèi)圖片、公式、清除塊、頁面拆分。
優(yōu)選地,在對(duì)所述電子文檔的結(jié)構(gòu)進(jìn)行標(biāo)注之后,所述方法還包括:
根據(jù)標(biāo)注的內(nèi)容,對(duì)圖片進(jìn)行加工,包括:
將獨(dú)立圖片和行內(nèi)圖片中的內(nèi)容轉(zhuǎn)換為單張圖片;
采用公式識(shí)別技術(shù)識(shí)別公式并將所述公式轉(zhuǎn)換為成Latex語言描述的公式;
將獨(dú)立圖片、行內(nèi)圖片、公式、清除塊從原始圖片中清除;
根據(jù)頁面拆分標(biāo)注,將經(jīng)過清除操作的原始圖片一分為二,得到多張圖片。
優(yōu)選地,在得到多張圖片之后,所述方法還包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京思題科技有限公司,未經(jīng)北京思題科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011578098.0/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種校直液壓機(jī)
- 下一篇:一種3D圖案防滲漏高透氣膜制備工藝
- 一種在多種電子設(shè)備,尤其是在電子服務(wù)提供商的電子設(shè)備和電子服務(wù)用戶的電子設(shè)備之間建立受保護(hù)的電子通信的方法
- 一種電子打火機(jī)及其裝配方法
- 電子檔案管理系統(tǒng)
- 在處理系統(tǒng)化學(xué)分析中使用的電子束激勵(lì)器
- 電子文件管理方法和管理系統(tǒng)
- 一種有效電子憑據(jù)生成、公開驗(yàn)證方法、裝置及系統(tǒng)
- 電子文憑讀寫控制系統(tǒng)和方法
- 具有加密解密功能的智能化電子證件管理裝置
- 一種基于數(shù)字證書的電子印章方法及電子印章系統(tǒng)
- 一種電子印章使用方法、裝置及電子設(shè)備
- 一種電子文檔識(shí)別方法及裝置
- 文檔匹配方法和文檔匹配裝置
- 復(fù)雜文檔分離組織方法以及復(fù)雜文檔自動(dòng)生成方法
- 一種文檔流程控制方法及裝置
- 云文檔加密及解密方法、加密及解密裝置、以及處理系統(tǒng)
- 一種將Markdown文檔轉(zhuǎn)換為PDF文檔的方法、裝置
- 文檔類型識(shí)別方法、裝置、設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 基于文檔編輯軟件的文檔處理方法、裝置、設(shè)備及介質(zhì)
- 一種引用文檔的更新方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 文檔操作錄制方法、文檔操作動(dòng)畫生成方法、裝置及設(shè)備
- 卡片結(jié)構(gòu)、插座結(jié)構(gòu)及其組合結(jié)構(gòu)
- 鋼結(jié)構(gòu)平臺(tái)結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 單元結(jié)構(gòu)、結(jié)構(gòu)部件和夾層結(jié)構(gòu)
- 鋼結(jié)構(gòu)扶梯結(jié)構(gòu)
- 鋼結(jié)構(gòu)隔墻結(jié)構(gòu)
- 鋼結(jié)構(gòu)連接結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機(jī)械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機(jī)械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測試終端的測試方法
- 一種服裝用人體測量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





