[發明專利]滿文部件切分中刪除多余候選切分行的方法有效
| 申請號: | 201810371506.1 | 申請日: | 2018-04-24 |
| 公開(公告)號: | CN108549896B | 公開(公告)日: | 2020-08-04 |
| 發明(設計)人: | 鄭蕊蕊;李敏;賀建軍;許爽;吳寶春;付玉 | 申請(專利權)人: | 大連民族大學 |
| 主分類號: | G06K9/34 | 分類號: | G06K9/34 |
| 代理公司: | 大連智高專利事務所(特殊普通合伙) 21235 | 代理人: | 劉斌 |
| 地址: | 116600 遼寧省*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 滿文 部件 切分 刪除 多余 候選 方法 | ||
滿文部件切分中刪除多余候選切分行的方法,屬于文字切分領域,為了解決提高滿文切分精度的問題,要點是(1)如果序列Can_seg中只有1條候選切分行,且為第1行,則刪除該行;否則轉步驟(2);(2)查找連續候選切分行組成的子段conti_subseg,若子段的起始行為第1行,或者子段的結束行為第H行,則刪除該子段的所有行;否則轉步驟(3),H是滿文單詞圖像的高度;(3)在連續候選切分子段conti_subseg中,按從小到大順序,用中位數替代該子段的所有行,當具有偶數個候選行時取中間兩個值的平均值再向上取整;效果是將候選切分行中,對于認定的多余候選切分行進而刪除,能夠提高候選切分行的準確性,從而提高切分的準確性。
技術領域
本發明屬于文字切分領域,涉及一種滿文部件切分中刪除多余候選切分行的方法。
背景技術
滿文是我國滿族、錫伯族等少數民族使用的語言文字,在清代作為法定文字被推廣和使用,形成了大量珍貴的滿文文獻。由于目前滿語文已瀕臨消失,滿族語言文化遺產亟待搶救和保護得到國家和社會各界的認同和重視。研究滿文的光學字符識別技術對保護和傳承清代文化遺產顯得尤為重要。滿文是一種音素文字,共有38個字母,其中6個元音字母,22個輔音字母,此外還有10個專門用于拼寫漢語借詞的特定字母。滿文書寫采用字序從上到下,行款從左到右的規則。對于滿文識別往往需要先將滿文先切分基本單元(如字母等),再予以識別,因而,提高滿文識別的精度可以從提高其切分精度著手。
發明內容
為了解決提高滿文切分精度的問題,本發明提出如下技術方案:一種滿文部件切分中刪除多余候選切分行的方法,候選切分行組成的序列為Can_seg,刪除序列Can_seg中的多余候選切分行的步驟:
(1)如果序列Can_seg中只有1條候選切分行,且為第1行,則刪除該行;否則轉步驟(2);
(2)查找連續候選切分行組成的子段conti_subseg,若子段的起始行為第1行,或者子段的結束行為第H行,則刪除該子段的所有行;否則轉步驟(3),H是滿文單詞圖像的高度;
(3)在連續候選切分子段conti_subseg中,按從小到大順序,用中位數替代該子段的所有行,當具有偶數個候選行時取中間兩個值的平均值再向上取整;
(4)輸出刪除了多余候選切分行的切分行序列Can_seg_new。
有益效果:本發明將候選切分行中,對于認定的多余候選切分行進而刪除,能夠提高候選切分行的準確性,從而提高切分的準確性。
附圖說明
圖1滿文部件集構建流程圖;
圖2滿文部件分割流程圖;
圖3傳統方法滿文單詞圖像中軸線提取錯誤實例圖;
圖4采用區域限定的最大游程比例法確定滿文中軸線寬度的圖,其中:(1)最大游程比例法錯誤實例圖、(2)本發明限定的搜索范圍圖、(3)本發明方法結果圖;
圖5本發明方法中軸線提取效果圖;
圖6滿文部件切分流程圖;
圖7滿文部件切分結果圖,其中:(1)弱分割現象圖、(2)弱分割區域經過細切分圖、(3)過分割現象圖、(4)過分割區域經過合并圖、(5)部分分割結果圖。
具體實施方式
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連民族大學,未經大連民族大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810371506.1/2.html,轉載請聲明來源鉆瓜專利網。





