[發明專利]一種藏文古籍的版面分析方法及系統在審
| 申請號: | 202011434430.6 | 申請日: | 2020-12-10 |
| 公開(公告)號: | CN112561928A | 公開(公告)日: | 2021-03-26 |
| 發明(設計)人: | 尼瑪扎西;擁措;師慶輝;蘆筱菲;畢琰虹;洛桑嘎登;仁增多吉 | 申請(專利權)人: | 西藏大學;同方知網數字出版技術股份有限公司 |
| 主分類號: | G06T7/11 | 分類號: | G06T7/11;G06T7/136;G06T5/30;G06T5/00;G06K9/00 |
| 代理公司: | 鄭州知一智業專利代理事務所(普通合伙) 41172 | 代理人: | 劉彩霞 |
| 地址: | 850000 西藏*** | 國省代碼: | 西藏;54 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 藏文 古籍 版面 分析 方法 系統 | ||
1.一種藏文古籍的版面分析方法,其特征在于,包括:
獲取藏文古籍圖像;
對所述藏文古籍圖像進行二值化處理,獲取所述藏文古籍圖像的二值圖像;
對所述二值圖像進行分離處理,獲取所述二值圖像中的文本文檔和非文本文檔;
對所述文本文檔進行區域分割,提取文本區域;
獲取所述非本文文檔中的圖像元素。
2.根據權利要求1所述的藏文古籍的版面分析方法,其特征在于,所述對所述藏文古籍圖像進行二值化處理,獲取所述藏文古籍圖像的二值圖像,包括:
對所述藏文古籍圖像進行灰度化處理,得到灰度圖像;
對所述灰度圖像進行二值化處理,得到所述藏文古籍圖像的二值圖像。
3.根據權利要求2所述的藏文古籍的版面分析方法,其特征在于,所述對所述灰度圖像進行二值化處理,得到所述藏文古籍圖像的二值圖像,包括:
對所述灰度圖像使用Sauvola算法求取每個像素(x,y)的局部閾值,計算公式如下:
其中,T(x,y)為所述局部閾值,m(x,y)和s(x,y)表示像素中心為(x,y)的W×W窗口的局部平均值和標準差,R是標準差的最大值,參數k為預設參數;
像素(x,y)的積分圖像I的計算公式為:
其中,g(x,y)為所述灰度圖像;
任意W窗口的局部平均值m(x,y)和標準差s(x,y)的計算公式為:
其中,對于a×b的圖像,窗口尺寸選為W=1/2×min(a,b);
將屬于前景的像素賦值為1,背景像素賦值為0,所述藏文古籍圖像的二值圖像f(x,y)的計算公式為:
4.根據權利要求2所述的藏文古籍的版面分析方法,其特征在于,所述對所述藏文古籍圖像進行灰度化處理,得到灰度圖像之前,所述藏文古籍的版面分析方法還包括:
對所述藏文古籍圖像依次進行Gamma矯正和基于Hough變換的傾斜矯正。
5.根據權利要求1所述的藏文古籍的版面分析方法,其特征在于,所述對所述二值圖像進行分離處理,獲取所述二值圖像中的文本文檔和非文本文檔,包括:
在所述二值圖像中提取和標注連通分量,并判定連通分量為文本元素還是非文本元素;
根據啟發式過濾過程去除所述非文本元素;
對經過所述啟發式過濾過程得到的二值圖像進行迭代過濾;
對迭代過濾之后的二值圖像進行區域重塑,獲取所述文本文檔和非文本文檔。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西藏大學;同方知網數字出版技術股份有限公司,未經西藏大學;同方知網數字出版技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011434430.6/1.html,轉載請聲明來源鉆瓜專利網。





