[發明專利]西文單詞中字符大小寫的修正方法和裝置有效
| 申請號: | 201010160729.7 | 申請日: | 2010-04-26 |
| 公開(公告)號: | CN102236638A | 公開(公告)日: | 2011-11-09 |
| 發明(設計)人: | 萬鑫;劉正珍 | 申請(專利權)人: | 漢王科技股份有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100193 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 西文 單詞 字符 大小寫 修正 方法 裝置 | ||
技術領域
本發明屬于文字處理領域,涉及一種字符的修正方法和裝置,特別涉及一種西文字符大小寫的修正方法和裝置。?
背景技術
在西文字符的識別中,例如英文字符、德文字符等,由于字符集中部分字母在基線中位置不相同,而字形極其相似或是完全相同,所以無法通過字符識別的方式完全進行區分。通常的方式為在初步對西文字符進行識別后,再對該字符的基線位置進行判斷,從而得到正確的識別結果,修正西文字符大小寫。?
通常有兩種方式確定單詞中的字符大小寫:?
方式一:根據語言的書寫規則及語法規范處理字符。在文檔中基本是句子首字母大寫、專有名詞首字母大寫,因此如果單詞中非首字母被識別為大寫字母,則在識別結果中將其糾正為小寫字母,但此方法會造成大寫縮寫單詞以及大寫字母為非首字母的情況下的字符識別錯誤,導致識別結果與原文實際不符,給用戶帶來很大的使用不便。?
方式二:根據單詞中已確定的字符統計基線,利用基線信息確定字母的大小寫。此方法中,若是單詞中字符的基線位置均不唯一,則無法統計單詞的基線;若單詞較長并且存在扭曲、傾斜等情況,則基線不能正確反映局部字符的實際基線位置,造成后處理過程中產生錯誤。?
因此,需要一種適應性更強的單詞后處理方法,能夠有效地修正字符的大小寫,判斷任意字符組合的單詞,并且不受單詞行扭曲等因素影響,使單詞的識別率大大提高。?
發明內容
本發明所要解決的技術問題是提供一種西文字符大小寫的修正方法和裝置,通過字符在圖像中的位置判斷字符的基線屬性,得到相鄰字符的相對位置,并分段記錄各字符所對應的基線在圖像中的位置來確定字符的基線屬性,進而對字符進行修正,最后輸出識別結果。?
本發明公開了一種西文單詞中字符大小寫的修正方法,包括以下步驟:?
步驟1:獲取目標文本的字符的識別結果和字符在圖像中的位置;?
步驟2:根據字符的識別結果和在圖像中的位置判斷字符的基線屬性,經統計后確定單詞的基線信息;?
步驟3:根據單詞的基線信息確定字符的基線屬性,將字符的基線屬性進行修正后輸出識別結果。?
所述步驟2、3中字符的基線屬性根據字符集中字符的上下邊界進行定義,記錄字符與對應基線的位置關系。?
所述步驟2包括以下步驟:?
步驟21:根據字符的識別結果初步判斷字符的基線屬性;?
步驟22:根據字符在圖像中的位置對得到的字符的基線屬性進行篩選;?
步驟23:統計單詞中篩選得到的各字符的基線屬性,根據基線屬性唯一的字符所對應的各基線在圖像中的位置計算單詞的基線信息。?
所述步驟22中對得到的字符的基線屬性進行篩選時,如果該字符的基線屬性大于一個,根據相鄰字符的相對位置去除不可能的基線屬性,并將備選的基線屬性進行組合,得到相鄰字符的相對位置,判斷字符的基線屬性。?
所述相鄰字符的相對位置通過相鄰字符上下邊界的距離差值與設定的參考距離閾值大小關系確定。?
所述參考距離閾值不大于單詞圖像高度的1/6。?
所述步驟23中統計單詞中各字符的基線屬性時,若單詞中存在多個具有?基線屬性唯一的字符,則取各字符所對應的基線在圖像中位置的平均值來計算單詞的基線信息。?
所述步驟23中統計單詞中各字符的基線屬性時,若單詞中存在多個具有基線屬性唯一的字符,則分段記錄各字符所對應的基線在圖像中的位置來計算單詞的基線信息。?
所述分段記錄各字符所對應的基線在圖像中的位置時,將各字符下邊界對應縱坐標值相差小于參考距離閾值的一個或多個字符作為一字符串,統計該字符串對應的基線信息。?
所述字符串對應的基線信息為各條基線對應的縱坐標和該字符串左右字符的索引。?
所述步驟3中字符的基線屬性個數大于一時,選取與該字符距離最近的字符串,字符的上下邊界與字符串對應的基線信息誤差最小時對應的基線屬性則為該字符的基線屬性,并根據字符的基線屬性進行修正后輸出識別結果。?
本發明還公開了一種西文單詞中字符大小寫的修正裝置,包括以下模塊:?
信息獲取模塊:獲取目標文本的字符的識別結果和字符在圖像中的位置;?
基線統計模塊:根據字符的識別結果和在圖像中的位置判斷字符的基線屬性,經統計后確定單詞的基線信息;?
信息修正模塊:根據單詞的基線信息判斷字符的基線屬性,將字符的基線屬性進行修正后輸出識別結果。?
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于漢王科技股份有限公司,未經漢王科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010160729.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:成型“U”形彎的沖壓模具
- 下一篇:一種室內足球鞋底





