[發明專利]一種低資源語種與通用語種的字典詞條提取及識別方法在審
| 申請號: | 202010501435.X | 申請日: | 2020-06-04 |
| 公開(公告)號: | CN111652157A | 公開(公告)日: | 2020-09-11 |
| 發明(設計)人: | 顏學明;薛海威;蔣盛益;劉建明 | 申請(專利權)人: | 廣東外語外貿大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/32;G06K9/62;G06N3/04;G06F40/242 |
| 代理公司: | 北京化育知識產權代理有限公司 11833 | 代理人: | 尹均利 |
| 地址: | 510000 *** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 資源 語種 通用 字典 詞條 提取 識別 方法 | ||
1.一種低資源語種與通用語種的字典詞條提取及識別方法,其特征在于,包括以下步驟:
S1:首先檢測輸入圖像是否需要進行預處理校正,若通過圖像參數等鑒別方法讀取為非灰度圖像、非掃描圖像時,則需要進行下一步驟S2,否則可直接跳過S2步驟;
S2:對輸入的字典圖像進行預處理矯正,首先需要將輸入圖像進行邊緣檢測,將檢測結果交由幾何校正,以將實體字典邊緣四角對齊到圖像邊緣四角;再使用文本方向檢測網絡VGG16,通過訓練0、90、180、270度檢測的分類模型,實現對不同方向偏轉的圖像分類,完成文本朝向修正;最后通過灰度化及二值化增強提升文字辨識度,去噪以減少對后續步驟的干擾影響,完成對輸入圖像的預處理校正;
S3:針對不同的字典語種需求,訓練所需要的文本檢測模塊,輸入相應的語料數據集,進行文本檢測網絡模型的訓練,借助Adaboost集成迭代算法,以實現對不同語種的文字檢測功能;該步驟針對每一詞典只需執行一次,可跳過無需重復執行;
S4:對輸入的字典圖像進行文本檢測,以改進的Adaboost為核心分類器,嵌入并同時進行三種文本檢測網絡:采用基于回歸的方法的EAST文本檢測網絡、采用由FastRCNN改進而來的基于部件或字符級檢測的方法CTPN網絡、采用基于分割的方法的PSENet網絡進行實現;結合這三類基本網絡類型,創新性地Adaboost使用對象從弱分類器中轉移至文本檢測網絡中,可以更高精度地實現對字典印刷體圖像的文本檢測;
S5:字典通常被分為兩欄或多欄,經過文本檢測之后,需要進行進一步分塊,以免提取文本時發生錯行錯欄,該方法擬使用聚類思想,將上一步驟獲取的文本檢測框的具體坐標信息,建立以圖像左下角為原點的笛卡爾系,將文本框間小于一定閾值T的框不斷聚類,最后聚合選為統一欄;
S6:對每一欄中通過獲取每一文本檢測框的坐標信息,對每一文本檢測框計算其檢測框左邊緣至笛卡爾系縱軸的距離,當該距離小于或大于一定閾值時,實現對每一詞條的圖像裁切功能;
S7:針對不同的字典語種需求,訓練所需要的文本識別模塊,輸入相應的語料數據集,進行CRNN網絡、Tesseract和字符模板匹配模塊的訓練,借助Adaboost集成迭代算法,以實現對不同語種的文字識別功能,并且使用多個模塊集成處理能使識別效果精度提高;該步驟針對每一詞典只需執行一次,可跳過無需重復執行;
S8:將切割獲得的目標詞條圖像傳入文本識別模塊;文本識別模塊擬運用多個識別模型:采用CRNN文字識別網絡、采用傳統識別工具Tesseract、采用字符模板匹配模塊進行實現;以置信度為輸入傳入改進Adaboost迭代算法中,創新性地Adaboost使用對象從弱分類器中轉移至文本識別網絡中,以進一步加強原算法的文本預測精度;
S9:將得到的識別結果,通過使用一定的自然語言處理方法以及正則表達式等方式,常用的自然語言處理方法有,如分詞、機械壓縮、符號半角全角統一等操作,實現對結果格式規范化,以實現能對接并導入指定的語料數據庫系統中。
2.根據權利要求1所述的一種低資源語種與通用語種的字典詞條提取及識別方法,其特征在于,所述步驟S2中若輸入圖像為掃描件,即可跳過該預處理步驟;若不為掃描件輸入,將需要使用預處理操作,需應用邊緣檢測Canny算子方法、幾何校正采用四點法的透視變換、灰度化及二值化增強等預處理操作。
3.根據權利要求1所述的一種低資源語種與通用語種的字典詞條提取及識別方法,其特征在于,所述步驟S4中創新性地Adaboost對象從傳統機器學習的弱分類器中轉移至文本檢測網絡中;Adaboost本用于傳統機器學習方法中的弱分類器的綜合改進,將多個弱分類器組成在一起訓練構成一個強分類器;借助該思想,創新性地將其應用于深度學習網絡上,實現更好的檢測效果;文本檢測網絡前期準備時,所需要達成的識別語種效果是非常靈活的,可以根據使用者所需要的語種,對文本檢測網絡訓練相應的語種數據集,以達到檢測指定不同語種的文字的效果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東外語外貿大學,未經廣東外語外貿大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010501435.X/1.html,轉載請聲明來源鉆瓜專利網。





