[發(fā)明專利]一種將圖片轉(zhuǎn)成HTML文檔的方法有效

申請(qǐng)?zhí)枺?/td>	201710850270.5	申請(qǐng)日：	2017-09-15
公開（公告）號(hào)：	CN107633055B	公開（公告）日：	2021-04-27
發(fā)明（設(shè)計(jì)）人：	黃博;關(guān)班記;張遠(yuǎn)世;齊兆勇;龐毅;何龍泉;季統(tǒng)凱	申請(qǐng)（專利權(quán)）人：	國云科技股份有限公司
主分類號(hào)：	G06F16/958	分類號(hào)：	G06F16/958;G06K9/00
代理公司：	暫無信息	代理人：	暫無信息
地址：	523808 廣東省東莞市松山湖高***	國省代碼：	廣東;44
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種圖片轉(zhuǎn)成 html 文檔方法
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種將圖片轉(zhuǎn)成HTML文檔的方法，其特征在于：所述的方法是利用OCR圖片識(shí)別技術(shù)和OCR識(shí)別的PHP接口API，對(duì)需要識(shí)別的內(nèi)容進(jìn)行設(shè)置和結(jié)果獲取；將獲得的背景色、大小、位置參數(shù)進(jìn)行優(yōu)化、層次區(qū)分和CSS轉(zhuǎn)儲(chǔ)，從而實(shí)現(xiàn)圖片轉(zhuǎn)HTML；

所述的方法主要包括背景色遍歷掃描區(qū)分、背景色識(shí)別錄入背景庫、背景庫層次迭代OCR識(shí)別、文字/非文字識(shí)別、相鄰/非相鄰DIV識(shí)別、CSS屬性優(yōu)化、已確定div邊框識(shí)別；

所述背景色遍歷掃描區(qū)分，利用OCR圖片識(shí)別的PHP識(shí)別接口，進(jìn)行橫向、縱向像素點(diǎn)顏色值識(shí)別，獲得第一背景色區(qū)域大小和背景色值；然后，遍歷整個(gè)圖片；得到N個(gè)第一背景色區(qū)域，全部錄入背景庫，得到第一包絡(luò)DIV；

所述背景色識(shí)別錄入背景庫，利用WEB前端技術(shù)和PHP技術(shù)；首先記錄每個(gè)背景色不同的第一包絡(luò)DIV的屬性，創(chuàng)建一個(gè)緩存數(shù)組對(duì)象JSON，內(nèi)含多個(gè)緩存變量屬性；將第一包絡(luò)DIV屬性遍歷進(jìn)這個(gè)JSON；

所述背景庫層次迭代OCR識(shí)別，更新并改進(jìn)JSON；利用迭代和遍歷函數(shù)，分析每個(gè)第一包絡(luò)DIV內(nèi)的組成；將這些組成部分組合為該第一包絡(luò)DIV的內(nèi)部子對(duì)象；每個(gè)內(nèi)部子對(duì)象都有其各自的屬性；每個(gè)子對(duì)象也可能包含子對(duì)象，如此遍歷下去，獲得N個(gè)級(jí)別的對(duì)象合集；

所述文字/非文字識(shí)別，定義一個(gè)判斷，判斷是否為文字；若是，則獲取到文字內(nèi)容塊的屬性后進(jìn)行自動(dòng)文字識(shí)別；若否，則進(jìn)入圖片處理方式；

所述相鄰/非相鄰DIV識(shí)別，遍歷每個(gè)相同級(jí)別的包絡(luò)DIV的位置；若處于同一行/列，則進(jìn)行相鄰識(shí)別；

所述CSS屬性優(yōu)化，優(yōu)化內(nèi)容包括盡量減少/排除絕對(duì)定位屬性信息，將絕對(duì)定位轉(zhuǎn)換成普通定位，通過外邊距進(jìn)行排版；對(duì)屬性值進(jìn)行去零取整操作，規(guī)范屬性值的數(shù)字；所有CSS屬性被安排存儲(chǔ)在一個(gè)外在的CSS文件中；HTML文件通過外鏈調(diào)用這個(gè)CSS文件；

所述已確定div邊框識(shí)別，對(duì)非文字包絡(luò)DIV；通過OCR技術(shù)掃描并判斷DIV目標(biāo)的包圍背景和包圍背景與內(nèi)部背景的距離，同時(shí)獲得包圍背景的顏色值；再次截取邊框內(nèi)的包絡(luò)DIV，替換掉最初的圖片文件，完成圖片裁剪邊框的操作。

2.根據(jù)權(quán)利要求1所述的方法，其特征在于：背景色遍歷掃描區(qū)分時(shí)，只識(shí)別沿圖片縱向方向橫向第一位的像素點(diǎn)的顏色值；當(dāng)遇到不同的像素點(diǎn)顏色時(shí)，退回到上一像素點(diǎn)，得到縱向的相同顏色的高度；然后開始轉(zhuǎn)換識(shí)別方向，只識(shí)別沿圖片橫向方向的像素點(diǎn)的顏色值；當(dāng)遇到不同的像素點(diǎn)顏色時(shí)，退回到上一像素點(diǎn)，得到橫向的相同顏色的寬度；從而確定第一背景色區(qū)域大小和背景色值；依次遍歷整個(gè)圖片；得到N個(gè)第一背景色區(qū)域，全部錄入背景庫，得到第一包絡(luò)DIV。

3.根據(jù)權(quán)利要求1所述的方法，其特征在于：所述第一包絡(luò)DIV的屬性，重要屬性包括寬度、高度、位置；

為每個(gè)包絡(luò)DIV對(duì)象都創(chuàng)建一個(gè)獨(dú)有的ID屬性并賦值。

4.根據(jù)權(quán)利要求2所述的方法，其特征在于：所述第一包絡(luò)DIV的屬性，重要屬性包括寬度、高度、位置；

為每個(gè)包絡(luò)DIV對(duì)象都創(chuàng)建一個(gè)獨(dú)有的ID屬性并賦值。

5.根據(jù)權(quán)利要求1至4任一項(xiàng)所述的方法，其特征在于：所述的文字/非文字識(shí)別的文字內(nèi)容塊的屬性包括寬度、高度、相對(duì)/絕對(duì)位置、文字大小、字體、字體顏色；

圖片處理方式是：首先得到區(qū)域的范圍，即同樣得到寬度、高度、位置屬性，其次利用PHP的圖片截取函數(shù)自定義出一個(gè)圖片截取方法；所截取的內(nèi)容就是包括邊框的圖片DIV的內(nèi)容；所截圖片只能是矩形；且得到最終圖片格式為最佳大小的JPG格式。

6.根據(jù)權(quán)利要求1至4任一項(xiàng)所述的方法，其特征在于：所述相鄰/非相鄰DIV識(shí)別中，算出DIV塊之間的像素點(diǎn)的合，即像素距離；此距離作為外邊距屬性存至屬性JSON內(nèi)，后期可以方便進(jìn)行CSS優(yōu)化。

7.根據(jù)權(quán)利要求1至4任一項(xiàng)所述的方法，其特征在于：所述CSS屬性優(yōu)化中所有元素的CSS定位標(biāo)簽都是ID定位。

8.根據(jù)權(quán)利要求6所述的方法，其特征在于：所述CSS屬性優(yōu)化中所有元素的CSS定位標(biāo)簽都是ID定位。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國云科技股份有限公司，未經(jīng)國云科技股份有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201710850270.5/1.html，轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G06 計(jì)算；推算；計(jì)數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識(shí)產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】