[發明專利]西文單詞中字符大小寫的修正方法和裝置有效
| 申請號: | 201010160729.7 | 申請日: | 2010-04-26 |
| 公開(公告)號: | CN102236638A | 公開(公告)日: | 2011-11-09 |
| 發明(設計)人: | 萬鑫;劉正珍 | 申請(專利權)人: | 漢王科技股份有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100193 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 西文 單詞 字符 大小寫 修正 方法 裝置 | ||
1.一種西文單詞中字符大小寫的修正方法,其特征在于,包括以下步驟:
步驟1:獲取目標文本的字符的識別結果和字符在圖像中的位置;
步驟2:根據字符的識別結果和在圖像中的位置判斷字符的基線屬性,經統計后確定單詞的基線信息;
步驟3:根據單詞的基線信息確定字符的基線屬性,將字符的基線屬性進行修正后輸出識別結果。
2.根據權利要求1所述的方法,其特征在于:所述步驟2、3中字符的基線屬性根據字符集中字符的上下邊界進行定義,記錄字符與對應基線的位置關系。
3.根據權利要求1所述的方法,其特征在于:所述步驟2包括以下步驟:
步驟21:根據字符的識別結果初步判斷字符的基線屬性;
步驟22:根據字符在圖像中的位置對得到的字符的基線屬性進行篩選;
步驟23:統計單詞中篩選得到的各字符的基線屬性,根據基線屬性唯一的字符所對應的各基線在圖像中的位置計算單詞的基線信息。
4.根據權利要求3所述的方法,其特征在于:所述步驟22中對得到的字符的基線屬性進行篩選時,如果該字符的基線屬性個數大于一,根據相鄰字符的相對位置去除不可能的基線屬性,并將備選的基線屬性進行組合,得到相鄰字符的相對位置,判斷字符的基線屬性。
5.根據權利要求4所述的方法,其特征在于:所述相鄰字符的相對位置通過相鄰字符上下邊界的距離差值與設定的參考距離閾值大小關系確定。
6.根據權利要求5所述的方法,其特征在于:所述參考距離閾值不大于單詞圖像高度的1/6。
7.根據權利要求3所述的方法,其特征在于:所述步驟23中統計單詞中各字符的基線屬性時,若單詞中存在多個具有基線屬性唯一的字符,則取各字符所對應的基線在圖像中位置的平均值來計算單詞的基線信息。
8.根據權利要求3所述的方法,其特征在于:所述步驟23中統計單詞中各字符的基線屬性時,若單詞中存在多個具有基線屬性唯一的字符,則分段記錄各字符所對應的基線在圖像中的位置來計算單詞的基線信息。
9.根據權利要求6或8所述的方法,其特征在于:所述分段記錄各字符所對應的基線在圖像中的位置時,將各字符下邊界對應縱坐標值相差小于參考距離閾值的一個或多個字符作為一字符串,統計該字符串對應的基線信息。
10.根據權利要求19所述的方法,其特征在于:所述字符串對應的基線信息為各條基線對應的縱坐標和該字符串左右字符的索引。
11.根據權利要求1所述的方法,其特征在于:所述步驟3中字符的基線屬性個數大于一時,選取與該字符距離最近的字符串,字符的上下邊界與字符串對應的基線信息誤差最小時對應的基線屬性則為該字符的基線屬性,并根據字符的基線屬性進行修正后輸出識別結果。
12.一種西文單詞中字符大小寫的修正裝置,其特征在于,包括以下模塊:
信息獲取模塊:獲取目標文本的字符的識別結果和字符在圖像中的位置;
基線統計模塊:根據字符的識別結果和在圖像中的位置判斷字符的基線屬性,經統計后確定單詞的基線信息;
信息修正模塊:根據單詞的基線信息判斷字符的基線屬性,將字符的基線屬性進行修正后輸出識別結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于漢王科技股份有限公司,未經漢王科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010160729.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:成型“U”形彎的沖壓模具
- 下一篇:一種室內足球鞋底





