[發(fā)明專(zhuān)利]樣本標(biāo)注方法及計(jì)算機(jī)存儲(chǔ)介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 201810134135.5 | 申請(qǐng)日: | 2018-02-09 |
| 公開(kāi)(公告)號(hào): | CN110135407B | 公開(kāi)(公告)日: | 2021-01-29 |
| 發(fā)明(設(shè)計(jì))人: | 興百橋 | 申請(qǐng)(專(zhuān)利權(quán))人: | 北京世紀(jì)好未來(lái)教育科技有限公司 |
| 主分類(lèi)號(hào): | G06K9/20 | 分類(lèi)號(hào): | G06K9/20;G06K9/34;G06K9/62 |
| 代理公司: | 北京合智同創(chuàng)知識(shí)產(chǎn)權(quán)代理有限公司 11545 | 代理人: | 李杰 |
| 地址: | 100086 北京市海淀區(qū)中*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 樣本 標(biāo)注 方法 計(jì)算機(jī) 存儲(chǔ) 介質(zhì) | ||
本發(fā)明提供了一種樣本標(biāo)注方法及計(jì)算機(jī)存儲(chǔ)介質(zhì)。該樣本標(biāo)注方法,包括:通過(guò)字符檢測(cè)模型對(duì)待標(biāo)注的樣本圖像進(jìn)行檢測(cè),根據(jù)檢測(cè)結(jié)果確定用于指示樣本圖像中各個(gè)字符的字符位置的字符框;針對(duì)每個(gè)字符框,判斷當(dāng)前字符框是否滿足以下條件中的至少兩個(gè):當(dāng)前字符框的寬度大于第一預(yù)設(shè)值,當(dāng)前字符框的寬高比大于第二預(yù)設(shè)值,當(dāng)前字符框中的第一設(shè)定像素的數(shù)量與第二設(shè)定像素的數(shù)量的比值大于第三預(yù)設(shè)值;若是,則將當(dāng)前字符框?qū)?yīng)的字符標(biāo)注為分式線,并進(jìn)行分式線處理。該樣本標(biāo)注方法的標(biāo)注效果更好。
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,尤其涉及一種樣本標(biāo)注方法及計(jì)算機(jī)存儲(chǔ)介質(zhì)。
背景技術(shù)
隨著人工智能和機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,越來(lái)越多的領(lǐng)域開(kāi)始采用機(jī)器學(xué)習(xí)方法訓(xùn)練設(shè)備,使之具有一定的智能性。隨之而來(lái)的是對(duì)訓(xùn)練樣本的需求增長(zhǎng)。例如,在訓(xùn)練光學(xué)字符檢測(cè)模型和識(shí)別模型時(shí)都需要大量的標(biāo)注樣本,標(biāo)注樣本是指在真實(shí)樣本上通過(guò)人工標(biāo)注出用于指示字符位置的字符框和字符類(lèi)別。現(xiàn)有的在獲取真實(shí)樣本時(shí)利用純手工標(biāo)注的方法,存在著效率低的問(wèn)題,而且因?yàn)槿斯?biāo)注會(huì)有一定的精度損失,例如存在人工失誤造成字符位置標(biāo)注不準(zhǔn)確,字符內(nèi)容標(biāo)注錯(cuò)誤的情況,這使得標(biāo)注后的樣本在進(jìn)行機(jī)器學(xué)習(xí)方法訓(xùn)練設(shè)備時(shí)效果不能發(fā)揮最好。
現(xiàn)有的字符檢測(cè)模型可以實(shí)現(xiàn)自動(dòng)化字符檢測(cè),并可以通過(guò)字符框的方式對(duì)字符進(jìn)行標(biāo)識(shí),但也存在著一些問(wèn)題,例如,在包含公式的樣本圖像中,可能存在一些公式符號(hào),例如分式線、根號(hào)、加號(hào)和減號(hào)等,這些公式符號(hào)通過(guò)現(xiàn)有的字符檢測(cè)模型可能被誤檢測(cè)為其他字形類(lèi)似的字符或者根本不能被檢測(cè),使得字符檢測(cè)的準(zhǔn)確度下降,需要人工進(jìn)行大量修正,增加了人工的勞動(dòng)強(qiáng)度。在通過(guò)人工修正時(shí),又存在著前述的人工標(biāo)注精度低的問(wèn)題。總之,現(xiàn)有的通過(guò)字符標(biāo)注方法存在著效率低、精度不好的問(wèn)題。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明實(shí)施例提供一種樣本標(biāo)注方法及計(jì)算機(jī)存儲(chǔ)介質(zhì),以解決現(xiàn)有技術(shù)中真實(shí)樣本標(biāo)注準(zhǔn)確率低的問(wèn)題。
本發(fā)明實(shí)施例提供一種樣本標(biāo)注方法,其包括:通過(guò)字符檢測(cè)模型對(duì)待標(biāo)注的樣本圖像進(jìn)行檢測(cè),根據(jù)檢測(cè)結(jié)果確定用于指示樣本圖像中各個(gè)字符的字符位置的字符框;針對(duì)每個(gè)字符框,判斷當(dāng)前字符框是否滿足以下條件中的至少兩個(gè):當(dāng)前字符框的寬度大于第一預(yù)設(shè)值,當(dāng)前字符框的寬高比大于第二預(yù)設(shè)值,當(dāng)前字符框中的第一設(shè)定像素的數(shù)量與第二設(shè)定像素的數(shù)量的比值大于第三預(yù)設(shè)值;若是,則將當(dāng)前字符框?qū)?yīng)的字符標(biāo)注為分式線,并進(jìn)行分式線處理。
根據(jù)本發(fā)明的另一方面,提供一種計(jì)算機(jī)存儲(chǔ)介質(zhì),該計(jì)算機(jī)存儲(chǔ)介質(zhì)存儲(chǔ)有:用于通過(guò)字符檢測(cè)模型對(duì)待標(biāo)注的樣本圖像進(jìn)行檢測(cè),根據(jù)檢測(cè)結(jié)果確定用于指示樣本圖像中各個(gè)字符的字符位置的字符框的指令;用于針對(duì)每個(gè)字符框,判斷當(dāng)前字符框是否滿足以下條件中的至少兩個(gè)的指令,其中,以下條件包括:當(dāng)前字符框的寬度大于第一預(yù)設(shè)值,當(dāng)前字符框的寬高比大于第二預(yù)設(shè)值,當(dāng)前字符框中的第一設(shè)定像素的數(shù)量與第二設(shè)定像素的數(shù)量的比值大于第三預(yù)設(shè)值;用于當(dāng)滿足至少兩個(gè)條件時(shí),將當(dāng)前字符框?qū)?yīng)的字符標(biāo)注為分式線,并進(jìn)行分式線處理的指令。
本發(fā)明實(shí)施例提供的一種樣本標(biāo)注方案,通過(guò)字符檢測(cè)模型對(duì)待標(biāo)注的樣本圖像進(jìn)行檢測(cè),并能夠根據(jù)檢測(cè)結(jié)果確定用于指示樣本圖像中各個(gè)字符位置的字符框。通過(guò)確定并標(biāo)注分式線對(duì)應(yīng)的字符框,并對(duì)確定的字符框進(jìn)行分式線處理,使得通過(guò)該樣本標(biāo)注方法標(biāo)注的樣本圖像可以有效避免分式線對(duì)應(yīng)的字符框影響后續(xù)機(jī)器學(xué)習(xí)模型訓(xùn)練效果的問(wèn)題。此外,該樣本標(biāo)注方法可以對(duì)分式線對(duì)應(yīng)的字符框進(jìn)行自動(dòng)處理,減少了人工校對(duì)的工作量,且保證了樣本標(biāo)注的準(zhǔn)確性。
附圖說(shuō)明
為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作一簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明實(shí)施例一提供的一種樣本標(biāo)注方法的流程示意圖;
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于北京世紀(jì)好未來(lái)教育科技有限公司,未經(jīng)北京世紀(jì)好未來(lái)教育科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810134135.5/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書(shū)寫(xiě)字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫(huà)組成的,而且每個(gè)筆畫(huà)表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 樣本引入裝置、樣本引入基片和樣本引入方法
- 樣本查找方法、裝置及系統(tǒng)
- 模型訓(xùn)練、樣本平衡方法及裝置以及個(gè)人信用評(píng)分系統(tǒng)
- 樣本輸送系統(tǒng)、樣本輸送方法以及樣本檢測(cè)系統(tǒng)
- 樣本分析裝置、樣本檢測(cè)設(shè)備及樣本檢測(cè)方法
- 樣本檢測(cè)方法、樣本檢測(cè)裝置及樣本檢測(cè)系統(tǒng)
- 樣本架、樣本混勻系統(tǒng)及樣本分析儀
- 樣本收集管及樣本收集系統(tǒng)
- 樣本數(shù)據(jù)集的擴(kuò)容方法及模型的訓(xùn)練方法
- 行人重識(shí)別的噪聲樣本識(shí)別方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 標(biāo)注信息生成裝置、查詢(xún)裝置及共享系統(tǒng)
- 一種圖像分割標(biāo)注方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)標(biāo)注方法
- 一種基于群智的語(yǔ)料庫(kù)數(shù)據(jù)標(biāo)注方法及系統(tǒng)
- 一種圖像標(biāo)注方法和裝置
- 一種樣本標(biāo)注方法、裝置、存儲(chǔ)介質(zhì)及設(shè)備
- 數(shù)據(jù)標(biāo)注管理方法及裝置、電子設(shè)備和可讀存儲(chǔ)介質(zhì)
- 標(biāo)注的更新方法、裝置、存儲(chǔ)介質(zhì)、處理器以及運(yùn)載工具
- 數(shù)據(jù)的標(biāo)注方法和裝置
- 一種智能標(biāo)注平臺(tái)的方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 雙桌面遠(yuǎn)程控制系統(tǒng)及方法
- 一種基于網(wǎng)絡(luò)的計(jì)算機(jī)信息檢索系統(tǒng)與方法
- 一種基于網(wǎng)絡(luò)的計(jì)算機(jī)信息檢索系統(tǒng)與方法
- 一種基于網(wǎng)絡(luò)的計(jì)算機(jī)信息檢索系統(tǒng)與方法
- 雙計(jì)算機(jī)系統(tǒng)
- 制導(dǎo)雷達(dá)計(jì)算機(jī)系統(tǒng)
- 一種服務(wù)部署方法及裝置
- 一種計(jì)算機(jī)集成系統(tǒng)及故障自動(dòng)切換方法
- 一種計(jì)算機(jī)信息安全監(jiān)控系統(tǒng)
- 混合型量子計(jì)算機(jī)架構(gòu)及其執(zhí)行計(jì)算任務(wù)的方法





