[發(fā)明專利]一種識別場景內(nèi)中文的識別網(wǎng)絡(luò)的訓(xùn)練方法和裝置在審
| 申請?zhí)枺?/td> | 201910146791.1 | 申請日: | 2019-02-27 |
| 公開(公告)號: | CN111626287A | 公開(公告)日: | 2020-09-04 |
| 發(fā)明(設(shè)計(jì))人: | 郜業(yè)飛;董健;顏水成 | 申請(專利權(quán))人: | 北京奇虎科技有限公司 |
| 主分類號: | G06K9/32 | 分類號: | G06K9/32;G06K9/62;G06F40/279 |
| 代理公司: | 深圳市世紀(jì)恒程知識產(chǎn)權(quán)代理事務(wù)所 44287 | 代理人: | 胡海國 |
| 地址: | 100088 北京市西城區(qū)新*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 識別 場景 中文 網(wǎng)絡(luò) 訓(xùn)練 方法 裝置 | ||
本發(fā)明提供了一種識別場景內(nèi)中文的識別網(wǎng)絡(luò)的訓(xùn)練方法和裝置。該方法包括:利用常用漢字隨機(jī)地生成第一語料樣本;將所述第一語料樣本與第一背景圖像合成得到含有中文文字區(qū)域的第一合成場景圖像樣本;利用所述第一合成場景圖像樣本對用于識別場景內(nèi)中文的識別網(wǎng)絡(luò)進(jìn)行訓(xùn)練。由于在隨機(jī)生成的語料樣本中,常用漢字的出現(xiàn)概率是趨向于均勻的,進(jìn)而在利用基于隨機(jī)生成的語料樣本合成的場景圖像樣本對識別網(wǎng)絡(luò)進(jìn)行訓(xùn)練時(shí),識別網(wǎng)絡(luò)對所有的常用漢字能夠見到的頻率也是趨于一致的,從而一定程度上解決了中文文字的長尾分布問題,提升了場景中中文文字的識別效果。
技術(shù)領(lǐng)域
本發(fā)明涉及圖像識別技術(shù)領(lǐng)域,特別是一種識別場景內(nèi)中文的識別網(wǎng)絡(luò)的訓(xùn)練方法、識別場景內(nèi)中文的識別網(wǎng)絡(luò)的訓(xùn)練裝置、計(jì)算機(jī)存儲(chǔ)介質(zhì)以及計(jì)算設(shè)備。
背景技術(shù)
目前,深度學(xué)習(xí)技術(shù)在圖形圖像領(lǐng)域應(yīng)用廣泛。OCR(Optical CharacterRecognition,光學(xué)字符識別)作為生活中電子設(shè)備和外界環(huán)境交互的關(guān)鍵環(huán)節(jié),在諸如車牌識別、街景識別、網(wǎng)絡(luò)圖像/視頻監(jiān)控等多個(gè)應(yīng)用場景被廣泛使用。而深度學(xué)習(xí)的引入,顯著提升了OCR識別精度,促進(jìn)了相關(guān)技術(shù)的商業(yè)化產(chǎn)品產(chǎn)出。
現(xiàn)今,基于深度學(xué)習(xí)的場景文字識別模型在英文文字識別中的應(yīng)用已被國內(nèi)外學(xué)者廣泛研究,并取得了良好的識別效果。但是,由于中文具有字符間無特殊間隔、文字?jǐn)?shù)量豐富、文字字形相近以及語料長尾分布等的特點(diǎn),將英文識別方案直接遷移到中文環(huán)境中進(jìn)行中文場景文字識別難以達(dá)到預(yù)期。
因此,亟需一種能夠改善中文場景文字識別的長尾詞問題,從而提升場景內(nèi)中文文字的識別效果的方法。
發(fā)明內(nèi)容
鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的識別場景內(nèi)中文的識別網(wǎng)絡(luò)的訓(xùn)練方法、識別場景內(nèi)中文的識別網(wǎng)絡(luò)的訓(xùn)練裝置、計(jì)算機(jī)存儲(chǔ)介質(zhì)以及計(jì)算設(shè)備。
根據(jù)本發(fā)明實(shí)施例的一方面,提供了一種識別場景內(nèi)中文的識別網(wǎng)絡(luò)的訓(xùn)練方法,包括:
利用常用漢字隨機(jī)地生成第一語料樣本;
將所述第一語料樣本與第一背景圖像合成得到含有中文文字區(qū)域的第一合成場景圖像樣本;
利用所述第一合成場景圖像樣本對用于識別場景內(nèi)中文的識別網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
可選地,在所述第一語料樣本中,每個(gè)漢字的出現(xiàn)頻率是可控的。
可選地,在所述第一語料樣本中,所有漢字的出現(xiàn)頻率被控制為是均等的。
可選地,在利用常用漢字隨機(jī)地生成第一語料樣本之前,所述方法還包括:
從用于漢字輸入的碼本中獲取所述常用漢字。
可選地,所述方法還包括:
獲取具有真實(shí)語義信息的語料;
將所述具有真實(shí)語義信息的語料與第二背景圖像合成得到含有中文文字區(qū)域的第二合成場景圖像樣本;
利用所述第二合成場景圖像樣本對所述識別網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
可選地,所述第一背景圖像與所述第二背景圖像相同。
可選地,獲取具有真實(shí)語義信息的語料,包括:
從含有自然語義的文本素材中截取特定長度的文字作為所述具有真實(shí)語義信息的語料。
可選地,所述方法還包括:
獲取真實(shí)場景圖像數(shù)據(jù);
利用所述真實(shí)場景圖像數(shù)據(jù)對所述識別網(wǎng)絡(luò)進(jìn)行參數(shù)調(diào)整。
可選地,獲取真實(shí)場景圖像數(shù)據(jù),包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京奇虎科技有限公司,未經(jīng)北京奇虎科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910146791.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 電視場景切換的方法及電視
- 視頻場景控制系統(tǒng)及方法
- 場景開關(guān)及其場景開關(guān)構(gòu)件和場景圖標(biāo)卡組件
- 場景聯(lián)動(dòng)方法及場景聯(lián)動(dòng)系統(tǒng)
- 一種視頻場景分類方法、裝置、移動(dòng)終端及存儲(chǔ)介質(zhì)
- 一種Unity3D引擎的場景切換方法和系統(tǒng)
- 一種自動(dòng)駕駛場景分類識別系統(tǒng)及方法
- 一種虛擬場景生成方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 一種汽車圖像場景庫數(shù)據(jù)復(fù)雜度度量方法
- 場景識別方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點(diǎn)網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲(chǔ)介質(zhì)及移動(dòng)終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動(dòng)恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲(chǔ)介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲(chǔ)介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置





