[發(fā)明專利]一種基于連通域的印刷文本圖文分割方法在審
| 申請?zhí)枺?/td> | 202010422496.7 | 申請日: | 2020-05-18 |
| 公開(公告)號: | CN111681257A | 公開(公告)日: | 2020-09-18 |
| 發(fā)明(設(shè)計)人: | 黃凱;田小波;蔣小文 | 申請(專利權(quán))人: | 浙江大學(xué) |
| 主分類號: | G06T7/187 | 分類號: | G06T7/187;G06T5/00 |
| 代理公司: | 杭州浙科專利事務(wù)所(普通合伙) 33213 | 代理人: | 孫孟輝 |
| 地址: | 310013 浙江*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 連通 印刷 文本 圖文 分割 方法 | ||
本發(fā)明公開了一種基于連通域的印刷圖文分割方法,并提出了一種利用基于連通域的印刷文本圖文分割方案來進(jìn)行對復(fù)雜版面印刷文檔添加抗打印掃描數(shù)字水印的應(yīng)用場景。通過利用連通域的一些特性(如面積、位置、寬度、高度等)來實現(xiàn)兩個目的:第一,把文檔圖像中文本部分和圖像部分分割開來。第二,把文檔圖像中的一些噪聲點和標(biāo)點符號去除。結(jié)果表明基于連通域的圖文分割方法具有較好的效果,能夠正確區(qū)分出文本部分和圖像部分,是復(fù)雜版面文檔版面預(yù)處理的重要步驟,是復(fù)雜版面文檔水印技術(shù)的重要前提。
技術(shù)領(lǐng)域
本發(fā)明涉及到打印機(jī)打印掃描過程中對復(fù)雜版面的印刷文本進(jìn)行版面預(yù)處理的領(lǐng)域,尤其涉及到一種對復(fù)雜版面的印刷文檔進(jìn)行圖文分離及后續(xù)操作。
背景技術(shù)
圖文分割,也被稱作圖像分割。通俗來說就是把一幅圖像根據(jù)特征分割成不同的區(qū)域,分割后每個區(qū)域都有相似的特征,如灰度、顏色、亮度等,并且每個區(qū)域之間都能明顯的區(qū)分開來。
圖像分割技術(shù)是圖像處理中一個比較重要的技術(shù),是用來處理文檔圖像,分割出文本和圖像的重要手段。文檔圖像,是指同時包含文字和圖像的文本圖像,在書籍、檔案、票據(jù)等方面普遍存在。
抗打印掃描的數(shù)字水印技術(shù)是數(shù)字水印的一個重要的應(yīng)用場景。眾所周知,生活中有許多地方會用到打印、掃描電子文檔或者其他數(shù)字作品,如政府文件、企業(yè)合同、書籍著作、雜志文章等,這些文件會很容易的通過掃描復(fù)印得到許多的副本,如何對它們進(jìn)行版權(quán)保護(hù)就顯得尤為重要。而這些文件不單單只是以純文本或者純圖像的形式出現(xiàn),它還有各種各樣的排版,圖文并茂。因此,如何針對這些復(fù)雜版面文檔添加數(shù)字水印的前提就是如何把文本和圖像分割出來。可見圖文分割作為一種預(yù)處理方法有著十分重要的作用。
發(fā)明內(nèi)容
為了解決現(xiàn)有技術(shù)中存在的上述技術(shù)問題,本發(fā)明提出了一種基于連通域的印刷文本圖文分割方案。利用連通域的方法來對復(fù)雜版面上的連通域進(jìn)行標(biāo)記,并同時結(jié)合去噪,來對印刷文檔圖像中的文本部分和非文本部分進(jìn)行分割。并提出了一種利用基于連通域的印刷文本圖文分割方案來進(jìn)行對復(fù)雜版面印刷文檔添加抗打印掃描數(shù)字水印的應(yīng)用場景。
一種基于連通域的印刷文本圖文分割方案,具體內(nèi)容包括:
步驟一,將復(fù)雜版面文檔轉(zhuǎn)為圖像。
步驟二,將轉(zhuǎn)化后圖像進(jìn)行二值化處理。
步驟三,對二值圖像進(jìn)行連通域標(biāo)記。標(biāo)記連通域,并記錄各個連通域的位置信息,面積信息等特征,并保存下來。
其中連通域標(biāo)記方法如下:
1.定義V是表征鄰接性的具有相同灰度值的集合。例如在二值圖像中,把具有1值得像素歸于V,灰度圖像類似處理。
2.選擇連通域的鄰接關(guān)系,4鄰接或者8鄰接。其中兩種鄰接關(guān)系如下定義:
4鄰接:對于兩個像素點p和q都屬于集合V,若q在集合N4(p)里,則像素p和像素q是4鄰接的。
8鄰接:對于兩個像素點p和q都屬于集合V,若q在集合N8(p)里,則像素p和像素q是8鄰接的。
更進(jìn)一步的,從坐標(biāo)為(x,y)像素點p出發(fā),經(jīng)過一系列的鄰接關(guān)系能夠到達(dá)q點(x′,y′),則定義p到q是連通的。假設(shè)S是圖像中的一個像素子集,假設(shè)S中的任意兩個像素點之間都存在一個通路,則稱S為一個連通集合。更進(jìn)一步地,圖像中存在若干個連通集合S1,S2,S3…,且它們之間相互不鄰接,那么這些連通集合則可分割為一個個連通區(qū)域。把這些獨立的連通區(qū)域提取出進(jìn)行區(qū)分并標(biāo)號的過程稱為連通域標(biāo)記。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江大學(xué),未經(jīng)浙江大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010422496.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計算機(jī)可讀存儲介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計算機(jī)設(shè)備和存儲介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





