[發明專利]梵文天城體印刷字符拉丁轉寫圖像識別方法有效
| 申請號: | 201611113938.X | 申請日: | 2016-12-07 |
| 公開(公告)號: | CN106778756B | 公開(公告)日: | 2020-04-21 |
| 發明(設計)人: | 劉松柏 | 申請(專利權)人: | 杭州佛學院 |
| 主分類號: | G06K9/34 | 分類號: | G06K9/34;G06K9/46;G06K9/62 |
| 代理公司: | 杭州之江專利事務所(普通合伙) 33216 | 代理人: | 黃燕 |
| 地址: | 310013 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 梵文 天城體 印刷 字符 拉丁 轉寫 圖像 識別 方法 | ||
本發明公開了一種梵文天城體印刷字符拉丁轉寫圖像識別方法,包括:(1)對包含梵文天城體印刷字符的字符圖片進行掃描,基于字符塊間垂直最大空白空間進行梵文天城體印刷字符塊分割,得到若干梵文天城體印刷字符塊;(2)對得到的梵文天城體印刷字符塊進行識別,得到梵文天城體印刷字符塊對應的特征向量;(3)將得到的特征向量與標準拉丁字符的特征向量進行對比,根據對比結果,將識別的梵文天城體印刷字符塊轉為拉丁字符。本發明實現了從梵文天城體無噪聲印刷字符圖像到對應拉丁字符的直接轉換,且準確度高,基本達到100%正確率。本發明所用的圖像識別算法方便易行,效率高。本發明提供的技術方案易于實現,適用于實際文獻研究應用。
技術領域
本發明屬于計算機文字圖像識別領域,具體涉及一種梵文天城體無噪聲印刷字符拉丁轉寫圖像識別方法。
背景技術
梵文不僅是一種優美的語言,而且更具有細密完整的變位系統,這已經引起了現代科學家的極大興趣。正是因為梵文具有完善的語法規則,很適合用計算機來處理。利用現在計算機技術帶來的便利,可以促進我們對梵文文獻的學習利用,加速佛經的梵漢對比研究。作為梵文佛典計算機識別研究的第一步需要實現對佛典文本的數字化和自動化識別,解決信息處理系統中手動輸入效率低這一關鍵問題,可以節省大量的識別轉寫人力工作,這是文獻數字化過程中極為耗時的過程。
隨著計算機技術的迅速發展,計算機文字識別不斷取得新的進展,極大提高了人類處理文字信息的能力。文字識別包括數字字符識別、文字字符識別,由于數字字符識別和英文字符識別難度相對不大,目前已經研究得比較充分,識別率也比較高。然而梵文字符由于其文字結構的復雜性,字符識別比較困難,因此梵文字符的圖像識別研究相對較少。由于梵文字符的復雜性不易進行后續研究,通常需要將其轉換為拉丁字符,方便后續的分詞和釋義,因而實現從梵文字符圖像到拉丁字符的直接轉換能夠大大提高梵文文獻的處理效率,能夠很大程度加速翻譯進程,具有重要的意義。
發明內容
本發明提供了一種梵文天城體無噪聲印刷字符拉丁轉寫圖像識別方法,實現了從梵文天城體無噪聲印刷字符圖像到對應拉丁字符的直接轉換,正確率高,能夠顯著提高梵文文獻的處理效率。
一種梵文天城體無噪聲印刷字符拉丁轉寫圖像識別方法,包括如下步驟:
(1)對包含梵文天城體印刷字符的字符圖片進行掃描,基于字符塊間垂直最大空白空間進行梵文天城體印刷字符塊分割,得到若干梵文天城體印刷字符塊;
(2)對得到的梵文天城體印刷字符塊進行識別,得到梵文天城體印刷字符塊對應的特征向量;
(3)將得到的特征向量與標準拉丁字符的特征向量進行對比,根據對比結果,將識別的梵文天城體印刷字符塊轉為拉丁字符。
作為優選,步驟(1)中,對所述字符圖片進行梵文天城體印刷字符塊分割的方法為:
(1-1)對所述字符圖片進行掃描后,識別出當前梵文天城體印刷字符對應的文字區域以及與文字區域相連的空白區域;
(1-2)同時識別出該梵文天城體印刷字符的連接符;
(1-3)利用在垂直于連接符的方向上最大空白區域對得到的文字區域進行分割,分割出所述梵文天城體印刷字符塊。
本發明中,對于文字區域和空白區域的識別,可通過讀取像素點的像素值確定;常見的字符圖片為黑白字符圖片,可直接進行識別,像素值(灰度值)高于某一特定值的可判定為文字區域內的像素點,對于低于某一特定值的可判定為空白區域的像素點。對于彩色的字符圖片,我們可以對圖片進行預處理,將圖片進行灰度化和二值化等,轉化為計算機容易識別的圖樣,以加快計算速度和效率。
一般情況下,梵文天城體印刷字符的連接符為水平的橫線結構。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州佛學院,未經杭州佛學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611113938.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:卡片信息識別方法及裝置
- 下一篇:基于文本顯著性的場景文本檢測方法





