[發(fā)明專利]一種基于自然語言處理的圖片構(gòu)建方法在審
| 申請?zhí)枺?/td> | 202011082580.5 | 申請日: | 2020-10-15 |
| 公開(公告)號: | CN112328825A | 公開(公告)日: | 2021-02-05 |
| 發(fā)明(設(shè)計(jì))人: | 王濤 | 申請(專利權(quán))人: | 蘇州零泉科技有限公司 |
| 主分類號: | G06F16/583 | 分類號: | G06F16/583 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 215000 江蘇省蘇州市*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 自然語言 處理 圖片 構(gòu)建 方法 | ||
本發(fā)明公開了一種基于自然語言處理的圖片構(gòu)建方法,步驟一;通過Smallpdf將所需pdf文件轉(zhuǎn)成圖片;步驟二;使用OpenCV對圖片進(jìn)行膨脹和腐蝕操作;步驟三;進(jìn)行文字識別;步驟四;將識別結(jié)果進(jìn)行匹配,發(fā)明涉及圖片構(gòu)建技術(shù)領(lǐng)域。該基于自然語言處理的圖片構(gòu)建方法,為數(shù)字圖像的處理、計(jì)算機(jī)視覺技術(shù)應(yīng)用提供了極大的方便,它不僅是完全免費(fèi)的開源軟件而且它包含非常豐富的各類圖像處理及識別的函數(shù),提高運(yùn)行速度和精準(zhǔn)匹配。
技術(shù)領(lǐng)域
本發(fā)明涉及圖片搜索技術(shù)領(lǐng)域,具體為一種基于自然語言處理的圖片構(gòu) 建方法。
背景技術(shù)
圖片信息可通過文字反映圖片的相關(guān)內(nèi)容,由于大多數(shù)軟件包基于計(jì)算 速度的角度考慮,采用C/C++編寫的,雖然這些軟件包對計(jì)算機(jī)圖像處理和 計(jì)算機(jī)視覺的研究提供很大的便利,但也存在著不足之處,大多數(shù)軟件包沒 有高級數(shù)學(xué)計(jì)算函數(shù),運(yùn)行速度令人慢;且大部分軟件包不支持網(wǎng)絡(luò)服務(wù)器 結(jié)構(gòu)的應(yīng)用程序的開發(fā);多數(shù)軟件包不支持可嵌入性。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種基于自然語言處理的圖片構(gòu)建 方法,OpenCV圖像處理算法庫在VC++編譯環(huán)境下運(yùn)行,為數(shù)字圖像的處理、 計(jì)算機(jī)視覺技術(shù)應(yīng)用提供了極大的方便,它不僅是完全免費(fèi)的開源軟件而且 它包含非常豐富的各類圖像處理及識別的函數(shù)。
為實(shí)現(xiàn)以上目的,本發(fā)明通過以下技術(shù)方案予以實(shí)現(xiàn):一種基于自然語 言處理的圖片構(gòu)建方法,包括:
步驟一;通過Smallpdf將所需pdf文件轉(zhuǎn)成圖片;
步驟二;使用OpenCV對圖片進(jìn)行膨脹和腐蝕操作;
步驟三;進(jìn)行文字識別;
步驟四;將識別結(jié)果進(jìn)行匹配。
進(jìn)一步地,所述步驟一中PDF轉(zhuǎn)換而成的數(shù)字圖像進(jìn)行操作,數(shù)字圖像 是以二維數(shù)組形式表示的圖像,其數(shù)字單元為像元。
進(jìn)一步地,所述數(shù)字圖像的基本元素為像素,在模擬圖像數(shù)字化時(shí)對連 續(xù)空間進(jìn)行離散化得到的。
進(jìn)一步地,步驟二中的運(yùn)算包括:二值腐蝕和膨脹、二值開閉運(yùn)算、骨 架抽取、極限腐蝕、擊中擊不中變換。
進(jìn)一步地,步驟四具體為識別結(jié)果與基于規(guī)則提取結(jié)果交叉過濾獲得文 本。
進(jìn)一步地,將識別結(jié)果與基于規(guī)則提取的結(jié)果進(jìn)行最長公共子串提取, 精簡部分基于規(guī)則提取的剩余文本。
進(jìn)一步地,所述步驟三具體為調(diào)用開源的Tesseract OCR API進(jìn)行文字識 別。
有益效果
本發(fā)明提供了一種基于自然語言處理的圖片構(gòu)建方法。具備以下有益效 果:
該基于自然語言處理的圖片構(gòu)建方法,通過使用OpenCV對圖片進(jìn)行膨脹 和腐蝕操作,OpenCV圖像處理算法庫在VC++編譯環(huán)境下運(yùn)行,為數(shù)字圖像的 處理、計(jì)算機(jī)視覺技術(shù)應(yīng)用提供了極大的方便,它不僅是完全免費(fèi)的開源軟 件而且它包含非常豐富的各類圖像處理及識別的函數(shù),提高運(yùn)行速度和精準(zhǔn) 匹配。
附圖說明
圖1為一種基于自然語言處理的圖片構(gòu)建方法的流程圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行 清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而 不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做 出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于蘇州零泉科技有限公司,未經(jīng)蘇州零泉科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011082580.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





