[發明專利]滿文部件集的構建方法有效
| 申請號: | 201810371805.5 | 申請日: | 2018-04-24 |
| 公開(公告)號: | CN108564089B | 公開(公告)日: | 2020-10-23 |
| 發明(設計)人: | 鄭蕊蕊;李敏;賀建軍;許爽;吳寶春 | 申請(專利權)人: | 大連民族大學 |
| 主分類號: | G06K9/34 | 分類號: | G06K9/34;G06K9/68 |
| 代理公司: | 大連智高專利事務所(特殊普通合伙) 21235 | 代理人: | 劉斌 |
| 地址: | 116600 遼寧省*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 滿文 部件 構建 方法 | ||
滿文部件集的構建方法,屬于文字切分領域,為了解決提高滿文切分精度的問題,構建一個滿文部件初始集,并置每個滿文部件的Flag=0,使用滿文部件切分方法對滿文單詞圖像進行分割,并統計和分析分割結果:若分割后的部件不屬于初始集,則將該部件加入初始集,并置該部件的Flag=1;若分割后的部件屬于初始部件集,則置對應部件的Flag=1,檢查初始集中是否有部件的Flag=0,判斷是否有部件在分割結果中從未出現過,若存在該部件則將該部件從初始集中刪除,整理并輸出滿文部件集,效果是以滿文部件作為切分單元,形成滿文部件集,使得滿文字母切分中的過切分、弱切分現象極大減少,使得切分精度更高。
技術領域
本發明屬于文字切分領域,涉及一種基于滿文部件切分的印刷體滿文識別方法。
背景技術
滿文是我國滿族、錫伯族等少數民族使用的語言文字,在清代作為法定文字被推廣和使用,形成了大量珍貴的滿文文獻。由于目前滿語文已瀕臨消失,滿族語言文化遺產亟待搶救和保護得到國家和社會各界的認同和重視。研究滿文的光學字符識別技術對保護和傳承清代文化遺產顯得尤為重要。滿文是一種音素文字,共有38個字母,其中6個元音字母,22個輔音字母,此外還有10個專門用于拼寫漢語借詞的特定字母。滿文書寫采用字序從上到下,行款從左到右的規則。對于滿文識別往往需要先將滿文先切分基本單元(如字母等),再予以識別,因而,提高滿文識別的精度可以從提高其切分精度著手。
發明內容
為了解決提高滿文切分精度的問題,本發明提出如下技術方案:一種滿文部件集的構建方法,構建一個滿文部件初始集,并置每個滿文部件的Flag=0,使用滿文部件切分方法對滿文單詞圖像進行分割,并統計和分析分割結果:若分割后的部件不屬于初始集,則將該部件加入初始集,并置該部件的Flag=1;若分割后的部件屬于初始部件集,則置對應部件的Flag=1,檢查初始集中是否有部件的Flag=0,判斷是否有部件在分割結果中從未出現過,若存在該部件則將該部件從初始集中刪除,整理并輸出滿文部件集。
作為技術方案的補充,所述的滿文部件集為附表1所示的部件集。
有益效果:以滿文部件作為切分單元,形成滿文部件集,使得滿文字母切分中的過切分、弱切分現象極大減少,使得切分精度更高。
附圖說明
圖1滿文部件集構建流程圖;
圖2滿文部件分割流程圖;
圖3傳統方法滿文單詞圖像中軸線提取錯誤實例圖;
圖4采用區域限定的最大游程比例法確定滿文中軸線寬度的圖,其中:(1)最大游程比例法錯誤實例圖、(2)本發明限定的搜索范圍圖、(3)本發明方法結果圖;
圖5本發明方法中軸線提取效果圖;
圖6滿文部件切分流程圖;
圖7滿文部件切分結果圖,其中:(1)弱分割現象圖、(2)弱分割區域經過細切分圖、(3)過分割現象圖、(4)過分割區域經過合并圖、(5)部分分割結果圖。
具體實施方式
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連民族大學,未經大連民族大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810371805.5/2.html,轉載請聲明來源鉆瓜專利網。





