[發(fā)明專(zhuān)利]一種基于譜聚類(lèi)的自然場(chǎng)景漢字分割方法有效
| 申請(qǐng)?zhí)枺?/td> | 201911088817.8 | 申請(qǐng)日: | 2019-11-08 |
| 公開(kāi)(公告)號(hào): | CN111062393B | 公開(kāi)(公告)日: | 2021-12-17 |
| 發(fā)明(設(shè)計(jì))人: | 趙凡;楊林林;張琳;聞治泉;武吉梅 | 申請(qǐng)(專(zhuān)利權(quán))人: | 西安理工大學(xué) |
| 主分類(lèi)號(hào): | G06K9/34 | 分類(lèi)號(hào): | G06K9/34;G06K9/62 |
| 代理公司: | 西安弘理專(zhuān)利事務(wù)所 61214 | 代理人: | 燕肇琪 |
| 地址: | 710048 陜*** | 國(guó)省代碼: | 陜西;61 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 譜聚類(lèi) 自然 場(chǎng)景 漢字 分割 方法 | ||
本發(fā)明公開(kāi)了一種基于譜聚類(lèi)的自然場(chǎng)景漢字分割方法,具體為:首先,采用深度學(xué)習(xí)方法對(duì)場(chǎng)景圖像進(jìn)行文字區(qū)域定位,實(shí)現(xiàn)快速準(zhǔn)確的文本框檢測(cè);其次,利用文字的強(qiáng)紋理性提取場(chǎng)景圖像的顯著圖,在顯著圖上再進(jìn)行MSER檢測(cè)得到各個(gè)連通的漢字筆畫(huà)、偏旁部首和英文字母,即一系列的字符候選框;再利用在圖像中的幾何位置關(guān)系得到各文本框中包含的字符框集合,并對(duì)各文本框中包含的字符框集合建立對(duì)應(yīng)的無(wú)向圖;最后,對(duì)各個(gè)無(wú)向圖采用譜聚類(lèi)進(jìn)行分割,對(duì)各分割結(jié)果按照類(lèi)間密度和類(lèi)內(nèi)散度之和達(dá)到最小找到最優(yōu)的聚類(lèi)結(jié)果,即為文本框中分割的各個(gè)漢字或英文字母。該方法在很大程度上可以提高漢字分割的準(zhǔn)確度,進(jìn)而提高中文的識(shí)別率。
技術(shù)領(lǐng)域
本發(fā)明屬于圖像處理技術(shù)領(lǐng)域,具體涉及一種基于譜聚類(lèi)的自然場(chǎng)景漢字分割方法。
背景技術(shù)
傳統(tǒng)的文字識(shí)別技術(shù)主要應(yīng)用于背景簡(jiǎn)單和文字排列整齊、遠(yuǎn)近、大小和顏色相同的文檔圖像,與文檔圖像相比,自然場(chǎng)景中出現(xiàn)的文字在字體、大小、顏色、方向、位置方面更具多樣性以及常受模糊、污染、遮擋等因素的影響,從而導(dǎo)致自然場(chǎng)景中文字的識(shí)別挑戰(zhàn)性更大。圖像和視頻中的文本檢測(cè)和識(shí)別技術(shù)有著廣泛的應(yīng)用前景,騰訊、百度、阿里、微軟、亞馬遜、谷歌等很多世界頂點(diǎn)公司也已經(jīng)開(kāi)始提供一些圖像文字檢測(cè)和識(shí)別的相關(guān)服務(wù),但是在這個(gè)熱門(mén)研究領(lǐng)域里,盡管有大量的公開(kāi)數(shù)據(jù),但大部分都是英文文本。英文單詞中的各個(gè)字母都是連通的,而漢字的偏旁部首和筆畫(huà)大都是不連通的,這就給漢字的分割和識(shí)別帶來(lái)更大的技術(shù)難度。如何利用漢字的間架結(jié)構(gòu)特點(diǎn),研究漢字的分割方法以提升漢字的分割精度和漢字的識(shí)別率有著非常重要的意義。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種基于譜聚類(lèi)的自然場(chǎng)景漢字分割方法,解決了現(xiàn)有技術(shù)中難以將漢字準(zhǔn)確分割的問(wèn)題。
本發(fā)明所采用的技術(shù)方案是,一種基于譜聚類(lèi)的自然場(chǎng)景漢字分割方法,具體按照以下步驟實(shí)施:
步驟1、在官方數(shù)據(jù)集ICDAR2017-RCTW-17、MSRA-TD500、ICDAR2017-MLT下載或拍攝一張包含漢字的彩色場(chǎng)景圖像Img1,對(duì)Img1進(jìn)行尺度變換,尺度因子為(sw,sh),其中和得到圖像Img2,w'和h'分別為圖像Img2的寬和高,w和h分別為圖像Img1的寬和高;
步驟2、把圖像Img2作為輸入,送入文本檢測(cè)網(wǎng)絡(luò)模型Modele2e-mlt,得到檢測(cè)的文本框集合B'={b'j|j=1,2,…N1},其中N1表示文本框總個(gè)數(shù),對(duì)文本框集合B'中的各個(gè)文本框位置和大小根據(jù)尺度因子進(jìn)行尺度變換得到B={bj|j=1,2,…N1},bj表示Img1中檢測(cè)到的第j個(gè)文本框,bj的四個(gè)頂點(diǎn)為
步驟3、把Img1作為輸入,送入顯著圖提取算法Saliency-Processing(),計(jì)算得到顯著圖SImg,把SImg作為輸入,調(diào)用開(kāi)源的Opencv庫(kù)函數(shù)mser.detectRegions(),計(jì)算得到MSER(Maximally Stable Extremal Regions)集合,即字符候選框集合C'={c'i|i=1,2,…N2},c'i表示第i個(gè)字符候選框,N2表示字符候選框總個(gè)數(shù),為字符候選框c'i的中心點(diǎn)坐標(biāo);
步驟4、利用bj和c'i在圖像中的幾何位置關(guān)系計(jì)算文本框bj中的字符候選框集合,記為表示第j個(gè)文本框bj中第m個(gè)字符候選框;m∈[1,Nj],Nj表示文本框bj中包含的字符候選框總個(gè)數(shù);
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于西安理工大學(xué),未經(jīng)西安理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911088817.8/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書(shū)寫(xiě)字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫(huà)組成的,而且每個(gè)筆畫(huà)表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 一種基于譜聚類(lèi)算法的選擇性聚類(lèi)集成方法
- 一種基于改進(jìn)譜聚類(lèi)的搜索引擎排序方法與系統(tǒng)
- 基于快速選取地標(biāo)點(diǎn)的圖像譜聚類(lèi)方法
- 一種基于超像素的模糊譜聚類(lèi)腦腫瘤圖像自動(dòng)分割方法
- 一種基于譜旋轉(zhuǎn)的一步譜聚類(lèi)方法
- 一種基于DTW-LASSO-譜聚類(lèi)的消費(fèi)者聚類(lèi)方法
- 一種考慮雙尺度相似性的負(fù)荷曲線集成譜聚類(lèi)方法
- 基于譜聚類(lèi)的子空間聚類(lèi)算法的數(shù)據(jù)處理方法及裝置
- 一種譜聚類(lèi)加速方法、系統(tǒng)、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種考慮改進(jìn)譜聚類(lèi)與Bi-LSTM神經(jīng)網(wǎng)絡(luò)的沖擊性負(fù)荷預(yù)測(cè)方法
- 電視場(chǎng)景切換的方法及電視
- 視頻場(chǎng)景控制系統(tǒng)及方法
- 場(chǎng)景開(kāi)關(guān)及其場(chǎng)景開(kāi)關(guān)構(gòu)件和場(chǎng)景圖標(biāo)卡組件
- 場(chǎng)景聯(lián)動(dòng)方法及場(chǎng)景聯(lián)動(dòng)系統(tǒng)
- 一種視頻場(chǎng)景分類(lèi)方法、裝置、移動(dòng)終端及存儲(chǔ)介質(zhì)
- 一種Unity3D引擎的場(chǎng)景切換方法和系統(tǒng)
- 一種自動(dòng)駕駛場(chǎng)景分類(lèi)識(shí)別系統(tǒng)及方法
- 一種虛擬場(chǎng)景生成方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 一種汽車(chē)圖像場(chǎng)景庫(kù)數(shù)據(jù)復(fù)雜度度量方法
- 場(chǎng)景識(shí)別方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





