[發(fā)明專利]基于深度學(xué)習(xí)的視頻場(chǎng)景文本檢測(cè)方法、系統(tǒng)、設(shè)備及介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 201910089785.7 | 申請(qǐng)日: | 2019-01-30 |
| 公開(公告)號(hào): | CN109919025A | 公開(公告)日: | 2019-06-21 |
| 發(fā)明(設(shè)計(jì))人: | 黃雙萍;伍思航;楊弈才;伍冠中 | 申請(qǐng)(專利權(quán))人: | 華南理工大學(xué) |
| 主分類號(hào): | G06K9/00 | 分類號(hào): | G06K9/00;G06K9/62 |
| 代理公司: | 廣州市華學(xué)知識(shí)產(chǎn)權(quán)代理有限公司 44245 | 代理人: | 李君 |
| 地址: | 510640 廣*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 卷積神經(jīng)網(wǎng)絡(luò) 預(yù)處理 場(chǎng)景文本 視頻場(chǎng)景 文本檢測(cè) 文本圖像數(shù)據(jù) 圖像數(shù)據(jù) 自然場(chǎng)景 端到端 計(jì)算機(jī)視覺 無(wú)人機(jī)飛行 視頻語(yǔ)義 文字識(shí)別 優(yōu)化訓(xùn)練 治安監(jiān)控 自動(dòng)駕駛 字幕翻譯 回歸 安防 構(gòu)建 學(xué)習(xí) 視頻 場(chǎng)景 檢測(cè) 應(yīng)用 | ||
本發(fā)明公開了一種基于深度學(xué)習(xí)的視頻場(chǎng)景文本檢測(cè)方法、系統(tǒng)、設(shè)備及介質(zhì),所述方法包括:獲取靜態(tài)自然場(chǎng)景文本圖像數(shù)據(jù);對(duì)靜態(tài)自然場(chǎng)景文本圖像數(shù)據(jù)進(jìn)行預(yù)處理,得到預(yù)處理場(chǎng)景文本圖像數(shù)據(jù);構(gòu)建基于回歸的端到端深度卷積神經(jīng)網(wǎng)絡(luò)模型;使用預(yù)處理場(chǎng)景文本圖像數(shù)據(jù)對(duì)深度卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行優(yōu)化訓(xùn)練;利用訓(xùn)練后的深度卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行視頻場(chǎng)景文本檢測(cè)。本發(fā)明采用計(jì)算機(jī)視覺中基于深度學(xué)習(xí)的檢測(cè)方法,通過設(shè)計(jì)高效的基于回歸的端到端深度卷積神經(jīng)網(wǎng)絡(luò)模型,可以快速并且實(shí)時(shí)準(zhǔn)確地獲取視頻中的場(chǎng)景文本,能夠?yàn)楹罄m(xù)文字識(shí)別等任務(wù)提供基礎(chǔ),對(duì)視頻語(yǔ)義理解、字幕翻譯、治安監(jiān)控安防、無(wú)人機(jī)飛行、自動(dòng)駕駛等場(chǎng)景有著重要的應(yīng)用。
技術(shù)領(lǐng)域
本發(fā)明涉及一種文本檢測(cè)方法,尤其是一種基于深度學(xué)習(xí)的視頻場(chǎng)景文本檢測(cè)方法、系統(tǒng)、設(shè)備及介質(zhì),屬于計(jì)算機(jī)視覺的目標(biāo)檢測(cè)領(lǐng)域。
背景技術(shù)
近年來(lái),隨著計(jì)算機(jī)技術(shù)、多媒體技術(shù)和網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,手機(jī)、攝像機(jī)、監(jiān)控等獲取視頻的設(shè)備快速普及,視頻資源日益豐富??焖俨⑶覝?zhǔn)確地獲取視頻中的信息越來(lái)越重要,而基于深度學(xué)習(xí)的方法蘊(yùn)藏著巨大的潛能,在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用發(fā)展如火如荼,成為當(dāng)今及未來(lái)的趨勢(shì)。更進(jìn)一步,實(shí)時(shí)準(zhǔn)確地檢測(cè)定位視頻中的場(chǎng)景文本,對(duì)視頻語(yǔ)義理解、字幕翻譯、治安監(jiān)控安防、無(wú)人機(jī)飛行、自動(dòng)駕駛等場(chǎng)景有著重要的應(yīng)用。
靜態(tài)圖像場(chǎng)景文字檢測(cè)的傳統(tǒng)圖像處理方法大多基于筆畫部件的滑窗檢測(cè),代表有Xu-Cheng Yin等人在2014年TPAMI期刊上發(fā)表一種使用MSERs算法來(lái)產(chǎn)生字符候選區(qū)域再構(gòu)建文本行并使用分類器分類的方法檢測(cè)文本;Lei Sun,Qiang Huo等人2015年在Pattern Recognition期刊上發(fā)表一種基于圖像顏色增強(qiáng)對(duì)比極值來(lái)提取文字區(qū)域的方法;Hojin Cho等人在2016年國(guó)際會(huì)議CPVR上發(fā)表一種基于Canny算子計(jì)算圖像中文字邊緣信息的快速檢測(cè)文本方法。這些傳統(tǒng)方法在實(shí)際應(yīng)用場(chǎng)景中檢測(cè)準(zhǔn)確率較低,達(dá)不到令人滿意的效果。
近年來(lái)受益于深度學(xué)習(xí)的蓬勃發(fā)展,靜態(tài)圖像場(chǎng)景文字檢測(cè)性能有了極大提升。Ankush Gupta等人在2016年國(guó)際會(huì)議CVPR上提出一種基于回歸的全卷積網(wǎng)絡(luò),兼顧速率和精度,但是其使用合成數(shù)據(jù)訓(xùn)練,在真實(shí)場(chǎng)景中對(duì)文字的召回率較低;Bai等人在2017年的AAAI上提出了一個(gè)從檢測(cè)文本到識(shí)別文本的端到端的方法,可以利用帶字典的文字識(shí)別進(jìn)行檢測(cè)結(jié)果調(diào)整,實(shí)驗(yàn)取得良好結(jié)果,在圖像700*700像素下檢測(cè)速度達(dá)到11幀每秒;Jin等人在2017年的CVPR提出使用任意四邊形檢測(cè)場(chǎng)景文本的方法,包括四邊形滑窗,四邊形重疊面積的快速計(jì)算,四邊形點(diǎn)的順序以及四邊形的回歸方法,使用了SSD作為基本框架,速度較快;Deng D等人在2018年AAAI上提出一種基于像素分割的文本檢測(cè)方法,利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)像素點(diǎn)進(jìn)行分類和8鄰域方向連接預(yù)測(cè),通過連通域方法連接成文本,該方法精度高但是速度不到10幀每秒;Ma、Shao等人在2018年的IEEE-TMM中發(fā)表一種新型的基于旋轉(zhuǎn)文本的框架,提出旋轉(zhuǎn)區(qū)域候選網(wǎng)絡(luò)(RRPN),旨在生成具有文本方向角信息的傾斜候選框,用于自然場(chǎng)景圖像中任意方向文本檢測(cè),雖然精度高但是速度達(dá)不到實(shí)時(shí)應(yīng)用要求。
發(fā)明內(nèi)容
鑒于此,本發(fā)明提供了一種基于深度學(xué)習(xí)的視頻場(chǎng)景文本檢測(cè)方法、系統(tǒng)、設(shè)備及介質(zhì),其引入了基于回歸的端到端深度卷積神經(jīng)網(wǎng)絡(luò)模型,達(dá)到較好的文本定位精準(zhǔn)性和實(shí)時(shí)幀率。
本發(fā)明的第一個(gè)目的在于提供一種基于深度學(xué)習(xí)的視頻場(chǎng)景文本檢測(cè)方法。
本發(fā)明的第二個(gè)目的在于提供一種基于深度學(xué)習(xí)的視頻場(chǎng)景文本檢測(cè)系統(tǒng)。
本發(fā)明的第三個(gè)目的在于提供一種計(jì)算機(jī)設(shè)備。
本發(fā)明的第四個(gè)目的在于提供一種存儲(chǔ)介質(zhì)。
本發(fā)明的第一個(gè)目的可以通過采取如下技術(shù)方案達(dá)到:
一種基于深度學(xué)習(xí)的視頻場(chǎng)景文本檢測(cè)方法,所述方法包括:
獲取靜態(tài)自然場(chǎng)景文本圖像數(shù)據(jù);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華南理工大學(xué),未經(jīng)華南理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910089785.7/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 終端卷積神經(jīng)網(wǎng)絡(luò)的處理方法、裝置、存儲(chǔ)介質(zhì)及處理器
- 一種基于卷積神經(jīng)網(wǎng)絡(luò)的圖像深度估計(jì)方法
- 卷積神經(jīng)網(wǎng)絡(luò)的生成方法及裝置
- 一種卷積神經(jīng)網(wǎng)絡(luò)硬件模塊部署方法
- 卷積神經(jīng)網(wǎng)絡(luò)的處理方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法及裝置
- 一種基于通道數(shù)搜索卷積神經(jīng)網(wǎng)絡(luò)的方法
- 卷積神經(jīng)網(wǎng)絡(luò)處理方法、裝置和電子系統(tǒng)
- 一種基于空洞卷積循環(huán)神經(jīng)網(wǎng)絡(luò)的聲音事件檢測(cè)方法
- 基于稀疏卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)方法及檢測(cè)裝置
- 電鍍預(yù)處理溶液和電鍍預(yù)處理方法
- 鐵水預(yù)處理方法及其預(yù)處理裝置
- 預(yù)處理裝置及其預(yù)處理方法
- 預(yù)處理組件、使用該預(yù)處理組件進(jìn)行試樣的預(yù)處理的預(yù)處理裝置及包括該預(yù)處理裝置的分析系統(tǒng)
- 待測(cè)樣品預(yù)處理裝置、預(yù)處理筒及預(yù)處理方法
- 醋酸纖維卷曲預(yù)處理裝置、預(yù)處理液及預(yù)處理方法
- 預(yù)處理裝置
- 預(yù)處理濾芯
- 甘薯儲(chǔ)藏預(yù)處理設(shè)備及預(yù)處理方法
- 水樣預(yù)處理裝置、水樣預(yù)處理系統(tǒng)及水樣預(yù)處理方法
- 一種雙目視頻轉(zhuǎn)換多目視頻的方法
- 場(chǎng)景知識(shí)圖譜的生成方法、人機(jī)對(duì)話方法以及相關(guān)設(shè)備
- 語(yǔ)音識(shí)別方法及相關(guān)產(chǎn)品
- 劇本處理方法、裝置、電子設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種文本提取方法、裝置、設(shè)備及介質(zhì)
- 一種基于多尺度特征的場(chǎng)景文本識(shí)別方法
- 基于生成對(duì)抗網(wǎng)絡(luò)的場(chǎng)景圖像生成方法和裝置
- 基于場(chǎng)景的文本分類模型、文本分類方法及裝置
- 語(yǔ)音的處理方法和裝置
- 基于生成對(duì)抗式風(fēng)格遷移的場(chǎng)景文本識(shí)別方法
- 一種視頻剪輯方法和裝置
- 視頻場(chǎng)景控制系統(tǒng)及方法
- 基于場(chǎng)景識(shí)別的視頻彈幕顯示方法及其顯示裝置
- 一種視頻分發(fā)場(chǎng)景下的低延時(shí)取流秒開方法
- 一種在HDMI下區(qū)分視頻場(chǎng)景的方法及裝置
- 視頻場(chǎng)景變化的檢測(cè)方法、裝置及視頻采集設(shè)備
- 一種識(shí)別視頻數(shù)據(jù)中視頻場(chǎng)景的方法和裝置
- 一種處理多場(chǎng)景視頻流的方法、裝置及計(jì)算機(jī)設(shè)備
- 樣本生成方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 視頻壓縮系統(tǒng)及方法、視頻解壓縮系統(tǒng)及方法





