[發明專利]一種基于塊投影的藏文歷史文獻文本區域提取方法有效
| 申請號: | 201710836675.3 | 申請日: | 2017-09-17 |
| 公開(公告)號: | CN107862310B | 公開(公告)日: | 2021-10-26 |
| 發明(設計)人: | 段立娟;張西群 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G06K9/20 | 分類號: | G06K9/20;G06K9/32;G06K9/38;G06K9/46 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 劉萍 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 投影 藏文 歷史文獻 文本 區域 提取 方法 | ||
本發明涉及一種基于塊投影的藏文歷史文獻文本區域提取方法。將采集的藏文歷史文獻圖像預處理;將圖像平分為N*N的圖像塊,利用連通區域的分類信息和角點密度信息對圖像塊進行過濾;通過分析過濾后的圖像塊的投影可以定位到文本區域的近似邊界位置;通過文本區域的近似邊界位置搜索文本區域的邊緣;通過文本區域邊緣矯正策略矯正文本區域邊緣,得到較完整、規則的文本區域。本發明利用塊投影,可以準確的定位出文本區域的位置、增強不同文本區域之間的間隔;本發明實現了藏文歷史文獻的文本區域提取,方法簡單、高效、易于實現。實驗表明,在較大的文本區域和較小的文本區域的像素精度閾值分別設為95%和90%的情況下,準確率為75.50%,召回率為98.11%,F值為85.33%。
技術領域
本發明涉及文檔分析研究中的文本提取方法,特別是涉及藏文歷史文獻的文本區域提取方法。
背景技術
近年來,隨著人們對傳統歷史文化的保護和傳承越來越重視,研究人員對歷史文獻數字化的興趣也越來越高漲。
藏族是一個擁有豐富傳統文化的民族,是中華燦爛文明不可或缺的重要組成部分。藏文歷史文獻是藏族傳統文化寶庫中一顆璀璨的明珠,其作為承載藏族古老文明的載體,受到了歷史學家、語言學家、佛學家、文獻學家的廣泛關注。一直以來,中央政府非常重視藏文歷史文獻及文物的保護及發掘,先后多次進行了藏族文物歷史文獻的收集和保護工作;但是,藏文歷史文獻的研究和發展現狀仍然不容樂觀。現在對藏文歷史文獻的保護主要停留在存放保護階段,大部分的藏文歷史文獻被保存在博物館、廟宇或研究院的庫房中,只有部分根據需要,以人工輸入、掃描、拍照等電子化手段進行保存,以供研究。這種方式存在耗費大量人力物力、傳輸流通不便、不能對藏文歷史文獻內容充分挖掘和利用等問題。歷史文獻的研究與保護也存在著矛盾,在研究藏文歷史文獻的過程中,無法避免對歷史文獻的觸摸以及翻動,這些正常的行為對有著幾百年甚至上千年歷史的文獻來說,可能是致命的。而采用數字化的方法對藏文歷史文獻圖像進行自動的版面分析和文本區域提取,將文獻內容轉化為數字化的文本存儲,可以大大提高對藏文歷史文獻的利用效率;可以大批量的遠距離在線瀏覽和傳輸,實現資源的共享;能夠在妥善保存原件的基礎上,實現對藏文歷史文獻的充分研究和傳承。因此,采用數字化技術對現有的藏文歷史文獻中的文本部分進行自動識別并轉化為數字形式存儲,對藏族歷史文化的研究、保護和傳承具有非常重要的意義。
文本提取是歷史文獻數字化過程中重要的基礎步驟。文本提取在文獻分析和識別領域也是一個長期存在的問題,在過去的幾十年中,國內外的研究者針對印刷或手寫的歷史文獻提出了許多不同的文本提取方法,文本提取方法多依賴于所處理文獻的版面特點,通常針對不同的文獻版面布局使用特定的算法。此外,現有的文本提取方法主要用來處理一些主流語言(如:中文,英文,法語等)的歷史文獻,很少有針對少數民族語言歷史文獻特點的文本提取方法提出。由于藏文文字的特點,藏文歷史文獻中相鄰行之間以及文字和邊框之間通常會有粘連的情況發生;由于歷史悠久藏文歷史文獻版面結構也較為復雜,文獻中的邊框、線段通常會彎曲、傾斜、斷裂;所以和其他歷史文獻相比對藏文歷史文獻進行文本區域提取是一項復雜的任務。
發明內容
針對藏文文字和藏文歷史文獻版面的特點,本發明提出一種基于塊投影的藏文歷史文獻文本區域提取方法。該方法利用連通區域信息和角點信息,先將平分的圖像塊進行過濾;然后通過分析過濾后的圖像塊的投影,定位出文本區域的近似位置;再通過搜索策略得到文本區域的邊緣;最后,矯正文本區域的邊緣部分來消除粘連帶來的影響,從而得到了較完整、規則的文本區域。
實現本發明方法的主要思路是:將采集的藏文歷史文獻圖像預處理;將圖像平分為N*N的圖像塊,利用連通區域的分類信息和角點密度信息對圖像塊進行過濾;通過分析過濾后的圖像塊的投影可以定位到文本區域的近似邊界位置;通過文本區域的近似邊界位置搜索文本區域的邊緣;通過文本區域邊緣矯正策略矯正文本區域邊緣,得到較完整、規則的文本區域。
一種基于塊投影的藏文歷史文獻文本區域提取方法,包括如下步驟:
(1)采集數據
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710836675.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:鋰電池極片雙料帶高速模切機
- 下一篇:自動識別行車狀態的方法及其系統





