[發(fā)明專利]一種維吾爾文圖像文件的標(biāo)注方法有效
| 申請?zhí)枺?/td> | 201310244905.9 | 申請日: | 2013-06-19 |
| 公開(公告)號: | CN103345481A | 公開(公告)日: | 2013-10-09 |
| 發(fā)明(設(shè)計(jì))人: | 哈力木拉提·買買提 | 申請(專利權(quán))人: | 新疆大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06K9/46;G06K9/20 |
| 代理公司: | 北京超凡志成知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11371 | 代理人: | 吳開磊 |
| 地址: | 830046 新疆維吾*** | 國省代碼: | 新疆;65 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 維吾爾文 圖像文件 標(biāo)注 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及維吾爾文字識別領(lǐng)域,尤其涉及一種維吾爾文圖像文件的標(biāo)注方法。
背景技術(shù)
維吾爾文是新疆等地少數(shù)民族所使用的拼音文字。現(xiàn)行維吾爾文有32個(gè)字母,自右至左橫書。每個(gè)字母按出現(xiàn)在單詞首、單詞中、單詞末的位置有不同的形式。維吾爾文形成圖像文件時(shí),根據(jù)實(shí)際需要對文件(例如:出版物上的維吾爾文)進(jìn)行掃描得到圖像文件,然后進(jìn)行識別圖像文件上的維吾爾文工作。
在識別維吾爾文之前還需要對圖像文件中圖像單詞進(jìn)行標(biāo)注工作(即將圖像文件與文本文件的內(nèi)容一一對應(yīng)起來),其工作難點(diǎn)在于:如何正確的標(biāo)注圖像文件的標(biāo)注信息。然而在現(xiàn)有技術(shù)中,圖像文件通過人工標(biāo)注文本信息,其缺點(diǎn)在于人工標(biāo)注效率很低,另外很容易出現(xiàn)錯(cuò)誤的標(biāo)注信息,然而由于數(shù)據(jù)處理量較大,通過人工操作方法在大量的文本文件中找到錯(cuò)誤標(biāo)注信息再進(jìn)行校正和標(biāo)注,同樣會(huì)浪費(fèi)很長的時(shí)間,這樣整個(gè)標(biāo)注過程的處理效率都很難得到保障。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種維吾爾文圖像文件的標(biāo)注方法,以解決上述問題。
為了達(dá)到上述目的,本發(fā)明的技術(shù)方案是這樣實(shí)現(xiàn)的:
一種維吾爾文圖像文件的標(biāo)注方法,包括如下步驟:
預(yù)先存儲(chǔ)經(jīng)掃描圖像文件以及與所述圖像文件一一對應(yīng)的文本文件;
在標(biāo)注每一頁圖像文件對應(yīng)的文本文件的標(biāo)注信息時(shí),提取每頁圖像文件的特征向量和對應(yīng)的文本文件的特征向量,利用余弦函數(shù)計(jì)算并分析圖像文件與文本文件特征向量相似性,在每一頁圖像文件與對應(yīng)的每一頁文本文件的區(qū)域中,利用二分法迭代計(jì)算相似性,查找相似單詞圖像及對應(yīng)的標(biāo)注信息進(jìn)行標(biāo)注,縮小錯(cuò)誤標(biāo)注信息所在區(qū)域,最終查找不相似的單詞圖像對應(yīng)的錯(cuò)誤標(biāo)注信息;
對不相似的單詞圖像對應(yīng)的錯(cuò)誤標(biāo)注信息進(jìn)行校正,再執(zhí)行標(biāo)注操作;
所述圖像文件包括多個(gè)維吾爾文掃描圖像文件;所述文本文件包括與多個(gè)維吾爾文掃描圖像文件對應(yīng)的標(biāo)注信息文件。
與現(xiàn)有技術(shù)相比,本發(fā)明實(shí)施例的優(yōu)點(diǎn)在于:
本發(fā)明提供的一種維吾爾文圖像文件的標(biāo)注方法,包括如下步驟:
首先,預(yù)先存儲(chǔ)經(jīng)掃描處理的多個(gè)圖像文件以及與所述圖像文件一一對應(yīng)的文本文件;這是實(shí)現(xiàn)查找錯(cuò)誤標(biāo)注信息的預(yù)處理過程。
然后,提取每個(gè)頁圖像文件的圖像特征向量和對應(yīng)的每頁文本文件的特征向量,并分析圖像文件的特征向量與文本文件的特征向量的相似性;顯然每頁圖像文件中的單詞圖像與文本文件中的單詞標(biāo)注信息都是一一對應(yīng)的,如果兩個(gè)文件相似度很高,那么圖像文件中的單詞圖像被文本單詞正確標(biāo)注;相反地,如果不相似,那么說明圖像文件中的單詞圖像存在錯(cuò)誤標(biāo)注。
利用上述原理并結(jié)合二分法迭代計(jì)算相似性查找錯(cuò)誤標(biāo)注信息,在不斷的使用二分法的過程中,不斷地縮小不相似區(qū)域,并最終確定錯(cuò)誤標(biāo)注信息;利用二分法初始化查找時(shí),將整頁圖像文件的區(qū)域與對應(yīng)的整頁文本文件的區(qū)域均分為兩個(gè)等分子區(qū)域,判斷當(dāng)前圖像文件的子區(qū)域與當(dāng)前文本文件的子區(qū)域相似性,若相似,則說明單詞圖像標(biāo)注信息正確,對相似單詞圖像部分進(jìn)行自動(dòng)標(biāo)注;若不相似,則可以判定當(dāng)前文本文件的子區(qū)域中含有與當(dāng)前圖像文件的子區(qū)域內(nèi)單詞圖像對應(yīng)的錯(cuò)誤標(biāo)注信息。然后將在含有錯(cuò)誤標(biāo)注信息的子區(qū)域繼續(xù)分成兩個(gè)等分子區(qū)域,再判定相似性,不斷縮小錯(cuò)誤標(biāo)注信息的區(qū)域,最終確定單詞的精確區(qū)域位置,這樣經(jīng)過二分法迭代(多次)查找后,并最終確定不相似的單詞圖像以及單詞圖像對應(yīng)的錯(cuò)誤標(biāo)注信息。對不相似的單詞圖像對應(yīng)的錯(cuò)誤標(biāo)注信息進(jìn)行校正標(biāo)注信息,再執(zhí)行標(biāo)注操作;這樣便可以完成了完整的自動(dòng)標(biāo)注流程。
本發(fā)明提供的維吾爾文圖像文件的標(biāo)注方法,利用數(shù)字圖像處理技術(shù)結(jié)合文件特征向量的相似性特點(diǎn),采用二分法迭代原理,從而快速地查找到了文本文件中的錯(cuò)誤標(biāo)注信息。
附圖說明
圖1為本發(fā)明實(shí)施例提供的維吾爾文圖像文件的標(biāo)注方法的流程示意圖。
具體實(shí)施方式
下面通過具體的實(shí)施例子并結(jié)合附圖對本發(fā)明做進(jìn)一步的詳細(xì)描述。
參見圖1,本發(fā)明實(shí)施例提供了一種維吾爾文圖像文件的標(biāo)注方法,包括如下步驟:
步驟S100、預(yù)先存儲(chǔ)經(jīng)掃描圖像文件以及與所述圖像文件一一對應(yīng)的文本文件;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于新疆大學(xué),未經(jīng)新疆大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310244905.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 基于嵌入式系統(tǒng)的維吾爾文連寫判斷與存儲(chǔ)方法
- 應(yīng)用電費(fèi)自助繳費(fèi)終端維吾爾文翻譯引擎的方法
- 離線式維吾爾文手寫簽名識別的一種高效的特征提取方法
- 一種維吾爾文農(nóng)業(yè)技術(shù)術(shù)語識別方法
- 一種圖像維吾爾文單詞識別方法及裝置
- 維吾爾語文本的情感分類方法及裝置
- 一種基于統(tǒng)計(jì)和淺層語言分析的維吾爾文語義串抽取方法
- 一種復(fù)雜背景下的維吾爾文檢測方法、系統(tǒng)及電子設(shè)備
- 一種維吾爾文手寫字母識別方法、系統(tǒng)及電子設(shè)備
- 一種聯(lián)機(jī)手寫維吾爾文單詞數(shù)據(jù)增強(qiáng)方法
- 標(biāo)注信息生成裝置、查詢裝置及共享系統(tǒng)
- 一種圖像分割標(biāo)注方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)標(biāo)注方法
- 一種基于群智的語料庫數(shù)據(jù)標(biāo)注方法及系統(tǒng)
- 一種圖像標(biāo)注方法和裝置
- 一種樣本標(biāo)注方法、裝置、存儲(chǔ)介質(zhì)及設(shè)備
- 數(shù)據(jù)標(biāo)注管理方法及裝置、電子設(shè)備和可讀存儲(chǔ)介質(zhì)
- 標(biāo)注的更新方法、裝置、存儲(chǔ)介質(zhì)、處理器以及運(yùn)載工具
- 數(shù)據(jù)的標(biāo)注方法和裝置
- 一種智能標(biāo)注平臺的方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測試終端的測試方法
- 一種服裝用人體測量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





