[發明專利]對滿文單詞正確分割各識別的滿文單詞中軸線的定位方法有效
| 申請號: | 201810580666.7 | 申請日: | 2015-09-29 |
| 公開(公告)號: | CN108830270B | 公開(公告)日: | 2021-10-08 |
| 發明(設計)人: | 李敏;鄭蕊蕊;許爽;吳寶春 | 申請(專利權)人: | 大連民族大學 |
| 主分類號: | G06K9/20 | 分類號: | G06K9/20 |
| 代理公司: | 大連智高專利事務所(特殊普通合伙) 21235 | 代理人: | 馬慶朝;赫澤坤 |
| 地址: | 116600 遼寧省*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 滿文 單詞 正確 分割 識別 軸線 定位 方法 | ||
本分案申請公開了一種對滿文單詞正確分割各識別的滿文單詞中軸線的定位方法,屬于文字處理領域,用于解決提高識別準確率的問題,要點是包括S1.單詞圖像預處理;S2.確定滿文單詞中軸線的寬度;S3.確定滿文單詞中軸線左右邊界位置,效果是提高了識別準確率。
本申請是申請號2015106293443,申請日2015-09-29,發明名稱“滿文單詞中軸線的定位方法”的分案申請。
技術領域
本發明涉及一種文字處理方法,特別是一種滿文單詞中軸線的定位方法。
背景技術
隨著科學技術的發展,計算機已經能夠對多種圖像格式的文字進行識別和辨認(如英文、日文),滿文作為世界語言的一種,還無法做到供計算機自動識別。如果能夠讓計算機做到自動識別、辨認滿文,則可以將大量的滿文文獻進行電子化處理,這對于滿文文獻的研究與保存,乃至滿族文化的研究與保存都有著十分重要的意義,而要想實現這一目標,首先需要對滿文的中軸線進行定位。
發明內容
本發明是為了解決現有技術所存在的上述不足,提出一種準確率高,有助于計算機對滿文單詞進行正確分割各識別的滿文單詞中軸線的定位方法。
本發明的技術解決方案是:一種滿文單詞中軸線的定位方法,其特征在于:所述的方法依次由滿文單詞圖像預處理、確定滿文單詞中軸線的寬度、確定滿文單詞中軸線左右邊界位置三個步驟組成,其中:
滿文單詞圖像預處理的步驟為:掃描滿文文檔,獲得滿文文檔的彩色圖像,并對滿文文檔的彩色圖像進行二值化,采用垂直投影法提取每一列滿文文檔的圖像,獲得列圖像,并對列圖像采用水平投影法提取滿文單詞圖像,然后對滿文單詞圖像進行位置歸一化處理,歸一化處理的步驟是找到滿文單詞圖像最外側上、下、左、右四個點的坐標位置,以這四個點為邊界,重新確定滿文單詞圖像的大小,并用I、W、H分別表示歸一化處理后的二值滿文單詞圖像、二值滿文單詞圖像的寬度數值和二值滿文單詞圖像的高度數值,
確定滿文單詞中軸線寬度的步驟為:對二值滿文單詞圖像I采用數學形態學進行處理,具體方法是采用長度為2的水平方向直線型形態學結構元素,對二值滿文單詞圖像I進行腐蝕處理,得到I的腐蝕圖像Ie,并求二值滿文單詞圖像I與腐蝕圖像Ie的縱向邊緣圖像Iv,即Iv=I-Ie,提取到滿文單詞的縱向邊緣,然后對縱向邊緣圖像Iv進行垂直投影,統計縱向邊緣圖像Iv的每一列中所包含的黑色像素的個數,垂直投影序列以vp1表示,取向量vp1中不重復的元素,并按照數值從大到小的降序方式進行排列,得到新的向量vp2,并取vp2中的前3個元素分別標記為ind1、ind2和ind3,用wd表示中軸線的寬度,wdmin表示最小中軸線寬度,賦值wdmin=0,wdmax表示最大中軸線寬度,T為最大中軸線寬度的閾值,賦值T=1/3,則最大中軸線寬度wdmax為對T×W的結果向下取整后的值,即
分別定義wd1、wd2、wd3為3個候選中軸線寬度,wd表示最終確定的中軸線寬度,其中wd1=∣ind1-ind2∣-1,wd2=∣ind1-ind3∣-1,wd3=∣ind2-ind3∣-1,
如果(wdminwd1wdmax)并且(wdminwd2wdmax)并且(wdminwd3wdmax),則wd=wd1,
如果(wdminwd1wdmax)并且(wdminwd2wdmax)并且(wd3=wdmin或者wd3=wdmax),則取wd1和wd2中值較大的一個做為wd的輸出值,即wd=max(wd1,wd2),
如果(wdminwd1wdmax)并且(wdminwd3wdmax)并且(wd2=wdmin或者wd2=wdmax),則取wd1和wd3中值較大的一個做為wd的輸出值,即wd=max(wd1,wd3),
如果(wdminwd2wdmax)并且(wdminwd3wdmax)并且(wd1=wdmin或者wd1=wdmax),則取wd2和wd3中值較大的一個做為wd的輸出值,即wd=max(wd2,wd3),
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連民族大學,未經大連民族大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810580666.7/2.html,轉載請聲明來源鉆瓜專利網。





