[發明專利]一種低資源語種與通用語種的字典詞條提取及識別方法在審
| 申請號: | 202010501435.X | 申請日: | 2020-06-04 |
| 公開(公告)號: | CN111652157A | 公開(公告)日: | 2020-09-11 |
| 發明(設計)人: | 顏學明;薛海威;蔣盛益;劉建明 | 申請(專利權)人: | 廣東外語外貿大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/32;G06K9/62;G06N3/04;G06F40/242 |
| 代理公司: | 北京化育知識產權代理有限公司 11833 | 代理人: | 尹均利 |
| 地址: | 510000 *** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 資源 語種 通用 字典 詞條 提取 識別 方法 | ||
本發明公開了一種低資源語種與通用語種的字典詞條提取及識別方法,在完成訓練基礎網絡模型之后,包括以下步驟:首先對輸入的字典圖像進行幾何校正和二值化等預處理;檢測字典分欄情況,字典被分為兩欄或多欄,將文本框間小于一定閾值T的框選為統一欄;在每一欄中進行圖像詞條切割;將切割獲得的目標詞條圖像傳入文本識別模塊。本發明一種低資源語種與通用語種的字典詞條提取及識別方法,通過先對輸入的字典圖像進行預處理矯正,再對輸入的字典圖像進行文本檢測,然后再對字典進行分欄檢測,將切割獲得的詞條文本圖像傳入文本識別模塊,最后對識別結果按語料庫格式規范化并自動導入指定語料庫,極大提高字典詞條導入語料庫的效率。
技術領域
本發明涉及一種字典詞條提取及識別方法,具體為一種低資源語種與通用語種的字典詞條提取及識別方法。
背景技術
自然語言處理技術不斷迭代更新,愈多小語種被圈入科研范圍內,在國內機器學習熱,潮盛行之下,愈加需要小語種與通用語種如中文等建立詞條對應關系,進一一步豐富目標語言語料庫,以便于后續進行自然語言處理,為運用多種深度學習模型夯實基礎。
目前現有市場,暫無針對小語種的字典詞條提取與識別,自動化對接導入語料庫的技術和工作。本發明擬希望開拓針對多種小語種字典詞條識別與提取的工作方向,建立更為完善的小語種與中文、英文的詞條對應關系,進一步推動針對小語種等多個語種的自然語言處理技術,進一步推動針對低資源語料的處理工作。
目前現有市場,暫無針對排版多樣化的字典詞條提取與識別工具,并且無法做到規范化輸出。本發明擬希望解決一項兼容問題,該問題是如何兼容不同詞典的排版多樣化;本發明將針對不同排版的字典提出一種靈活兼容的提取方法。
目前現有市場,暫無針對字典詞條提取及識別而開發對應的技術與產品,推而廣之,目前在場景文本、光學字符識別技術方面逐步發展。己能對多數場景的文本、書籍文本、特定場景內容如身份證等進行識別,但目前的技術僅能對所攝圖片的所有文字無排版的詞條提取與識別的需求。因此我們對此做出改進,提出一種低資源語種與通用語種的字典詞條提取及識別方法,并且能夠對接深度學習訓練的語料庫,實現自動格式規范化導入。
發明內容
為解決現有技術存在的缺陷,本發明提供一種低資源語種與通用語種的字典詞條提取及識別方法。
為了解決上述技術問題,本發明提供了如下的技術方案:
本發明一種低資源語種與通用語種的字典詞條提取及識別方法,包括以下步驟:
S1:首先檢測輸入圖像是否需要進行預處理校正,若通過圖像參數等鑒別方法讀取為非灰度圖像、非掃描圖像時,則需要進行下一步驟S2,否則可直接跳過S2步驟;
S2:首先對輸入的字典圖像進行預處理矯正,首先需要將輸入圖像進行邊緣檢測,將檢測結果交由幾何校正,以將實體字典邊緣四角對齊到圖像邊緣四角;再使用文本方向檢測網絡VGG16,通過訓練0、90、180、270度檢測的分類模型,實現對不同方向偏轉的圖像分類,完成文本朝向修正;最后通過灰度化及二值化增強提升文字辨識度,去噪以減少對后續步驟的干擾影響,完成對輸入圖像的預處理校正;
S3:針對不同的字典語種需求,訓練所需要的文本檢測模塊,輸入相應的語料數據集,進行文本檢測網絡模型的訓練,借助Adaboost集成迭代算法,以實現對不同語種的文字檢測功能;該步驟針對每一詞典只需執行一次,可跳過無需重復執行;
S4:對輸入的字典圖像進行文本檢測,以改進的Adaboost為核心分類器,嵌入并同時進行三種文本檢測網絡:采用基于回歸的方法的EAST文本檢測網絡、采用由FastRCNN改進而來的基于部件或字符級檢測的方法CTPN網絡、采用基于分割的方法的PSENet網絡進行實現,創新性地Adaboost使用對象從弱分類器中轉移至文本檢測網絡中,可以更高精度地實現對字典印刷體圖像的文本檢測;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東外語外貿大學,未經廣東外語外貿大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010501435.X/2.html,轉載請聲明來源鉆瓜專利網。





