[發(fā)明專利]一種維吾爾文圖像文件的標(biāo)注方法有效
| 申請?zhí)枺?/td> | 201310244905.9 | 申請日: | 2013-06-19 |
| 公開(公告)號: | CN103345481A | 公開(公告)日: | 2013-10-09 |
| 發(fā)明(設(shè)計(jì))人: | 哈力木拉提·買買提 | 申請(專利權(quán))人: | 新疆大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06K9/46;G06K9/20 |
| 代理公司: | 北京超凡志成知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11371 | 代理人: | 吳開磊 |
| 地址: | 830046 新疆維吾*** | 國省代碼: | 新疆;65 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 維吾爾文 圖像文件 標(biāo)注 方法 | ||
1.一種維吾爾文圖像文件的標(biāo)注方法,其特征在于,包括如下步驟:
預(yù)先存儲經(jīng)掃描圖像文件以及與所述圖像文件一一對應(yīng)的文本文件;
在標(biāo)注每一頁圖像文件對應(yīng)的文本文件的標(biāo)注信息時(shí),提取每頁圖像文件的特征向量和對應(yīng)的文本文件的特征向量,利用余弦函數(shù)計(jì)算并分析圖像文件與文本文件特征向量相似性,在每一頁圖像文件與對應(yīng)的每一頁文本文件的區(qū)域中,利用二分法迭代計(jì)算相似性,查找相似單詞圖像及對應(yīng)的標(biāo)注信息進(jìn)行標(biāo)注,縮小錯(cuò)誤標(biāo)注信息所在區(qū)域,最終查找不相似的單詞圖像對應(yīng)的錯(cuò)誤標(biāo)注信息;
對不相似的單詞圖像對應(yīng)的錯(cuò)誤標(biāo)注信息進(jìn)行校正,再執(zhí)行標(biāo)注操作;
所述圖像文件包括多個(gè)維吾爾文掃描圖像文件;所述文本文件包括與多個(gè)維吾爾文掃描圖像文件對應(yīng)的標(biāo)注信息文件。
2.如權(quán)利要求1所述的維吾爾文圖像文件的標(biāo)注方法,其特征在于,
所述提取每頁圖像文件的特征向量和對應(yīng)的文本文件的特征向量,包括如下步驟:
在圖像文件中,通過對所有的單詞圖像的寬度間隔的統(tǒng)計(jì)及每個(gè)單詞中所包含連體段之間的寬度間隔的統(tǒng)計(jì),獲取圖像特征向量;
在文本文件中,通過對所有的單詞之間所包含空格的統(tǒng)計(jì),獲取標(biāo)注信息特征向量;
其中,所述單詞包括一個(gè)或多個(gè)連體段。
3.如權(quán)利要求2所述的維吾爾文圖像文件的標(biāo)注方法,其特征在于,
所述在圖像文件中,通過對所有的單詞圖像的寬度間隔的統(tǒng)計(jì)及每個(gè)單詞中所包含連體段之間的寬度間隔的統(tǒng)計(jì),獲取圖像特征向量,包括如下步驟:
在圖像文件中,求取各個(gè)單詞之間的間隔寬度GWj及各個(gè)連體段之間的間隔寬度GWj,其中:j=1、2、3…m,m為常數(shù);
預(yù)設(shè)寬度閾值TW作為單詞界限,在整頁圖像文件的區(qū)域中,依照由上到下,從右向左的順序計(jì)算相鄰的每兩個(gè)連體段的間隔寬度GWj;
判斷GWj與TW的大小關(guān)系,若GWj大于或等于TW,則判定兩個(gè)相鄰的連體段之間的間隔為不同單詞圖像之間的空白,并確定單詞圖像的一個(gè)邊界,經(jīng)過多次判斷確定單詞圖像的另一個(gè)邊界,確定完整的單詞圖像;若GWj小于TW,則判定兩個(gè)相鄰的連體段之間的間隔為同一單詞圖像之間的間隙;
計(jì)算得到每個(gè)單詞圖像的連體段數(shù)、相鄰連體段之間關(guān)聯(lián)特征以及圖像文件所在區(qū)域內(nèi)的行數(shù),單詞數(shù),并作為圖像文件的特征向量;
其中,單詞圖像之間的間隔稱為空白,同一單詞圖像內(nèi)部的連體段之間的間隔稱為間隙。
4.如權(quán)利要求3所述的維吾爾文圖像文件的標(biāo)注方法,其特征在于,
所述在文本文件中,通過對所有的單詞之間所包含空格的統(tǒng)計(jì),獲取標(biāo)注信息特征向量,包括如下步驟:
在整頁文本文件的區(qū)域中,依照由上到下,從右向左的順序查找空格,經(jīng)過查找確定完整的單詞;
計(jì)算得到每個(gè)單詞標(biāo)注信息的連體段數(shù)、相鄰連體段標(biāo)注信息之間關(guān)聯(lián)特征以及文本文件所在區(qū)域內(nèi)的行數(shù),單詞數(shù),并作為文本文件的特征向量;
其中,相鄰的不同單詞之間包括一個(gè)空格,單詞中的連體段由維吾爾文11個(gè)字母:確定。
5.如權(quán)利要求4所述的維吾爾文圖像文件的標(biāo)注方法,其特征在于,
所述利用余弦函數(shù)計(jì)算并分析圖像文件與文本文件特征向量相似性,在每一頁圖像文件與對應(yīng)的每一頁文本文件的區(qū)域中,利用二分法迭代計(jì)算相似性,查找相似單詞圖像及對應(yīng)的標(biāo)注信息進(jìn)行標(biāo)注,縮小錯(cuò)誤標(biāo)注信息所在區(qū)域,最終查找不相似的單詞圖像對應(yīng)的錯(cuò)誤標(biāo)注信息,包括如下步驟:
利用二分法初始化查找處理時(shí),將整頁圖像文件的區(qū)域與對應(yīng)的整頁文本文件的區(qū)域均分為兩個(gè)等分子區(qū)域,利用余弦函數(shù)分別計(jì)算兩個(gè)子區(qū)域內(nèi)圖像文件的特征向量與對應(yīng)的子區(qū)域內(nèi)文本文件的特征向量的相似度值,判斷相似度值是否大于相似度閾值;若是,則判定單詞圖像標(biāo)注信息正確,對相似單詞圖像部分進(jìn)行自動(dòng)標(biāo)注;
若否,則判定當(dāng)前文本文件的子區(qū)域中含有與當(dāng)前圖像文件的子區(qū)域內(nèi)單詞圖像對應(yīng)的錯(cuò)誤標(biāo)注信息,在含有錯(cuò)誤標(biāo)注信息的子區(qū)域內(nèi)繼續(xù)利用二分法迭代查找確定單詞的位置,并不斷縮小錯(cuò)誤標(biāo)注信息所在區(qū)域,最終確定不相似的單詞圖像以及單詞圖像對應(yīng)的錯(cuò)誤標(biāo)注信息。
6.如權(quán)利要求5所述的維吾爾文圖像文件的標(biāo)注方法,其特征在于,
所述余弦函數(shù)為:
其中,圖像文件的特征向量為xi;i=1、2、3…n,n為常數(shù);文本文件的特征向量為yi;i=1、2、3…n,相似度值為r;
所述圖像文件的特征向量包括每個(gè)單詞圖像的連體段數(shù)、相鄰連體段之間關(guān)聯(lián)特征以及圖像文件所在區(qū)域內(nèi)的行數(shù),單詞數(shù)的特征向量;
所述文本文件的特征向量包括每個(gè)單詞標(biāo)注信息的連體段數(shù)、相鄰連體段標(biāo)注信息之間關(guān)聯(lián)特征以及文本文件所在區(qū)域內(nèi)的行數(shù),單詞數(shù)的特征向量;
為圖像文件區(qū)域內(nèi)的特征向量的均值;為文本文件區(qū)域內(nèi)的特征向量的均值;
所述相似度閾值為t;t為正數(shù);當(dāng)r≥t時(shí),圖像文件所在區(qū)域與對應(yīng)文本文件所在區(qū)域相似;當(dāng)r<t時(shí),圖像文件所在區(qū)域與對應(yīng)文本文件所在區(qū)域不相似。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于新疆大學(xué),未經(jīng)新疆大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310244905.9/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 基于嵌入式系統(tǒng)的維吾爾文連寫判斷與存儲方法
- 應(yīng)用電費(fèi)自助繳費(fèi)終端維吾爾文翻譯引擎的方法
- 離線式維吾爾文手寫簽名識別的一種高效的特征提取方法
- 一種維吾爾文農(nóng)業(yè)技術(shù)術(shù)語識別方法
- 一種圖像維吾爾文單詞識別方法及裝置
- 維吾爾語文本的情感分類方法及裝置
- 一種基于統(tǒng)計(jì)和淺層語言分析的維吾爾文語義串抽取方法
- 一種復(fù)雜背景下的維吾爾文檢測方法、系統(tǒng)及電子設(shè)備
- 一種維吾爾文手寫字母識別方法、系統(tǒng)及電子設(shè)備
- 一種聯(lián)機(jī)手寫維吾爾文單詞數(shù)據(jù)增強(qiáng)方法
- 標(biāo)注信息生成裝置、查詢裝置及共享系統(tǒng)
- 一種圖像分割標(biāo)注方法、裝置及計(jì)算機(jī)可讀存儲介質(zhì)
- 一種數(shù)據(jù)標(biāo)注方法
- 一種基于群智的語料庫數(shù)據(jù)標(biāo)注方法及系統(tǒng)
- 一種圖像標(biāo)注方法和裝置
- 一種樣本標(biāo)注方法、裝置、存儲介質(zhì)及設(shè)備
- 數(shù)據(jù)標(biāo)注管理方法及裝置、電子設(shè)備和可讀存儲介質(zhì)
- 標(biāo)注的更新方法、裝置、存儲介質(zhì)、處理器以及運(yùn)載工具
- 數(shù)據(jù)的標(biāo)注方法和裝置
- 一種智能標(biāo)注平臺的方法、裝置、電子設(shè)備和存儲介質(zhì)





