[發(fā)明專利]一種婆羅米系文字的識別方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202210262353.3 | 申請日: | 2022-03-16 |
| 公開(公告)號: | CN114842487A | 公開(公告)日: | 2022-08-02 |
| 發(fā)明(設(shè)計)人: | 不公告發(fā)明人 | 申請(專利權(quán))人: | 上海鶉火信息技術(shù)有限公司 |
| 主分類號: | G06V30/40 | 分類號: | G06V30/40;G06V30/14;G06V30/19;G06V10/80;G06V10/82;G06V10/764;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 杭州天昊專利代理事務(wù)所(特殊普通合伙) 33283 | 代理人: | 范凌杰 |
| 地址: | 201400 上海*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 婆羅米系 文字 識別 方法 系統(tǒng) | ||
本發(fā)明提供一種婆羅米系文字的識別方法,用于輸入圖像的文本識別,包括檢測步驟、識別文本步驟,其中,檢測步驟包括:1.輸入圖像,圖像進入檢測模塊;2.檢測模塊對圖像中的文字區(qū)域進行描述,描述形式為多邊形頂點坐標(biāo);3.將描述完畢的文字區(qū)域圖提取出來經(jīng)過變換得到規(guī)則形狀的圖像;識別文本步驟,包括:4.將多邊形圖像傳入識別模塊得到文本數(shù)據(jù);其中,檢測模塊內(nèi)設(shè)有用于提取圖像特征的第一主干神經(jīng)網(wǎng)絡(luò),識別模塊內(nèi)設(shè)有第二主干神經(jīng)網(wǎng)絡(luò)。本發(fā)明提供的一種婆羅米系文字的識別方法及系統(tǒng),解決了傳統(tǒng)OCR對部分婆羅米系文字不能正確識別的問題,有很好的市場前景。
技術(shù)領(lǐng)域
本發(fā)明涉及文字識別技術(shù)領(lǐng)域,尤其涉及一種針對婆羅米系文字的識別方法及系統(tǒng)。
背景技術(shù)
以下的背景技術(shù)介紹僅僅是一些背景常識的介紹,不會對本發(fā)明構(gòu)成任何限制。
所謂婆羅米系文字(Brahmic scripts),是指源自古印度古印度孔雀王朝的婆羅米文衍生而來的一種書寫系統(tǒng),屬于元音附標(biāo)文字(Abugida),又稱音節(jié)音位文字(Alphasyllabary),是一類以輔音字母為主體、元音以附加符號形式標(biāo)出的表音文字。婆羅米(Brahmī)的原意“來自大梵天的”,是婆羅門為了給這種字母圍上一圈圣光而捏造出來的。這種字母歷史極古,公元前6 世紀(jì)已開始使用、變體頗多。其被廣泛使用于南亞、東南亞、部分中亞及東亞地區(qū),包括很多語族:印歐語系、漢藏語系、蒙古語族、達羅毗荼語系、南亞語系等,具體而言梵文(達利迦體、悉曇體、蘭札體、天城體等等)、孟加拉文、藏文、泰米爾文、僧伽羅文、緬甸文、古孟文、高棉文、泰文、傣泐文(蘭納文)、老撾文、吐火羅文A(焉耆文)和B(龜茲文)等都屬于婆羅米系文字,另外當(dāng)代印地語和尼泊爾語也使用天城體梵文來書寫,是目前世界上第四多人使用的文字系統(tǒng)。該文字在南亞和東南亞各國會因政經(jīng)和地理環(huán)境而呈現(xiàn)出不同的樣貌。雖然樣貌上存在不同,但是由于其歷史淵源,這些文字一脈相承,具有共同的底層字母拼寫和單字構(gòu)造邏輯,使得這些文字具有大量共性特點,這也是本發(fā)明的識別方法及系統(tǒng)能通用于婆羅米系文字的根本原因。
附圖15、附圖16為部分婆羅米系文字輔音子母對照表以及元音子母對照表,從其字形上,也能看出它們之間存在的淵源和衍變,存在著相似性和共性。
婆羅米系文字的特點:
1.輔音字母通常自帶元音a(高棉文通過輔音陰陽分組,陰組帶元音陽組帶元音)
2.輔音單獨使用不帶任何元音時,則用無韻輔音符(元音消除符virāma,即怛達點畫)來標(biāo)明,用于表示半音,包括:天城體梵文、孟加拉文和藏文的緬甸文泰米爾文僧伽羅文泰文盧固泰文馬拉雅拉姆文,例如:天城體梵文ka+怛達點畫
3.單字(字丁)由一個核心輔音字母在其上下左右疊加元音和變音符號,輔音自帶的元音省略不寫。
4.復(fù)輔音(輔音叢)通過在核心輔音字母的上下或左右疊加其它輔音字母實現(xiàn),藏文是上下堆疊,泰文是左右疊加,天城體梵文、孟加拉文采用左右疊加和上下堆疊兩種方式,高棉文三層輔音堆疊時進行先上下、后左右的疊加:
5.輔音叢(輔音連寫)里,次要輔音字母可能會進行一定的變形或簡化,例如梵文(悉曇體、天城體)、孟加拉文的輔音合寫(合字、連體字),藏文上加字藏文下加字高棉文的下輔音形式等等
例如:天城體梵文ddhrya合字如附圖12所示。
悉曇體梵文:ra+ka+va組合成rkva,如附圖13所示。
孟加拉文,附圖14所示。
6.多個字母疊加時,縱向疊加會導(dǎo)致行高的變化,書寫的時候有可能跨行,例如梵音藏文(用藏文轉(zhuǎn)寫音譯梵文)最多有九層字母堆疊(Unicode編碼最多支持七層堆疊),如附圖7所示。
7.文字從左向右橫向書寫,部分文字為了書寫美觀,可能有些筆畫會跨越多個單字,例如藏文草書的多種字體元音字母都會跨字,如附圖8所示。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海鶉火信息技術(shù)有限公司,未經(jīng)上海鶉火信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210262353.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





