[發(fā)明專利]一種英文郵件地址的識別與翻譯方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202110248496.4 | 申請日: | 2021-03-08 |
| 公開(公告)號: | CN112633283A | 公開(公告)日: | 2021-04-09 |
| 發(fā)明(設(shè)計)人: | 夏志鵬;丁明;李海榮;陳永輝 | 申請(專利權(quán))人: | 廣州市玄武無線科技股份有限公司 |
| 主分類號: | G06K9/32 | 分類號: | G06K9/32;G06K9/62;G06N3/04;G06N3/08;G06F40/58 |
| 代理公司: | 廣州三環(huán)專利商標(biāo)代理有限公司 44202 | 代理人: | 陳旭紅;吳落 |
| 地址: | 510000 廣東省廣州市天河區(qū)體*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 英文 郵件地址 識別 翻譯 方法 系統(tǒng) | ||
本發(fā)明提供一種英文郵件地址的識別與翻譯方法及系統(tǒng),其中,方法包括:獲取含有英文郵件地址信息的圖片,對所述圖片進行預(yù)處理,得到含有英文郵件地址信息的第一圖像;其中,所述預(yù)處理包括:去噪處理、角度矯正及增強處理;對所述第一圖像進行文本區(qū)域檢測,得到所述第一圖像的文本區(qū)域數(shù)量及位置信息;根據(jù)所述第一圖像的文本區(qū)域數(shù)量及位置信息進行裁剪,得到僅含有文本信息的第二圖像;對所述第二圖像中的英文信息進行翻譯,得到中文地址信息。本發(fā)明可實現(xiàn)圖像中不同版式的英語國際信件的地址信息進行自動化識別與翻譯,并與業(yè)務(wù)系統(tǒng)進行高效對接。本發(fā)明支持單張/批量英語國際郵件的圖像處理,支持同步/異步地址信息識別與翻譯。
技術(shù)領(lǐng)域
本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域,特別是涉及一種英文郵件地址的識別與翻譯方法及系統(tǒng)。
背景技術(shù)
隨著全球化的深入發(fā)展,不同國家之間來往的國際信件數(shù)量逐年遞增,以英語作為官方語言的國家發(fā)往中國的郵件數(shù)量增長更加明顯。傳統(tǒng)的處理國際郵件的分揀方法是由人工對信件上地址、收件人信息的英語翻譯成中文,然后書寫在信件上或者蓋上相應(yīng)地址戳,交由快遞員進行派件。
國際英文信件的郵遞信息書寫版式?jīng)]有統(tǒng)一的格式,且內(nèi)容由中文拼音和英語混合組成,翻譯時要求工作人員對物流公司業(yè)務(wù)覆蓋區(qū)域的地名非常熟悉,才能做到準(zhǔn)確翻譯。當(dāng)信件數(shù)量較少時,人工翻譯雖然速度較慢,但是可以支撐業(yè)務(wù)需求。現(xiàn)在信件數(shù)量激增,特別是國際貿(mào)易發(fā)達的大型城市,每天要處理的國際信件高達數(shù)十萬件,采用依靠人工翻譯的方式給物流公司帶來了巨大的人力成本,尋求技術(shù)突破來提升工作效率的需求十分迫切。
發(fā)明內(nèi)容
本發(fā)明提供一種英文郵件地址的識別與翻譯方法及系統(tǒng),基于神經(jīng)網(wǎng)絡(luò)的OCR識別和機器翻譯,可以對手機、相機等電子設(shè)備拍攝的英文郵件地址信息進行識別和翻譯,將得到的中文地址信息傳入業(yè)務(wù)系統(tǒng),支撐工作人員對不同區(qū)域的國際信件準(zhǔn)確、高效進行分揀。
本發(fā)明一個實施例提供一種英文郵件地址的識別與翻譯方法,包括:
獲取含有英文郵件地址信息的圖片,對所述圖片進行預(yù)處理,得到含有英文郵件地址信息的第一圖像;其中,所述預(yù)處理包括:去噪處理、角度矯正及增強處理;
對所述第一圖像進行文本區(qū)域檢測,得到所述第一圖像的文本區(qū)域數(shù)量及位置信息;
根據(jù)所述第一圖像的文本區(qū)域數(shù)量及位置信息進行裁剪,得到僅含有文本信息的第二圖像;
對所述第二圖像中的英文信息進行翻譯,得到中文地址信息。
進一步的,所述對所述第二圖像中的英文信息進行翻譯,得到中文地址信息包括:
根據(jù)基于Porter stemmer算法的英文分詞與語句處理模型對所述第二圖像中的英文字符串進行分詞,生成英文語句;
通過基于深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練的中英文翻譯模型對所述英文語句進行翻譯,并根據(jù)表示區(qū)域級別的關(guān)鍵詞過濾與地址信息無關(guān)的語句,生成中文地址信息;
根據(jù)預(yù)設(shè)中文地址數(shù)據(jù)庫校驗所述中文地址信息;
其中,所述對所述第一圖像進行文本區(qū)域檢測,得到所述第一圖像的文本區(qū)域數(shù)量及位置信息,包括:
通過基于深度神經(jīng)網(wǎng)絡(luò)對英文地址圖像的特征標(biāo)注數(shù)據(jù)進行訓(xùn)練得到檢測模型判斷所述第一圖像中是否含有英文地址區(qū)域;
在判斷所述第一圖像中含有英文地址區(qū)域時,根據(jù)文本檢測模型,得到所述第一圖像的文本區(qū)域數(shù)量及位置信息。
進一步的,所述對所述第二圖像中的英文信息進行翻譯之前,還包括:
通過基于深度神經(jīng)網(wǎng)絡(luò)對英文圖像和英文字符標(biāo)注數(shù)據(jù)進行訓(xùn)練得到的識別模型識別英文信息。
進一步的,根據(jù)高斯濾波算法及中值濾波算法進行所述去噪處理,消除所述圖片中對文本信息有明顯干擾的噪聲像素;
根據(jù)基于深度神經(jīng)網(wǎng)絡(luò)的文本角度檢測模型進行所述角度矯正,檢測所述圖片的傾斜和/或翻轉(zhuǎn)角度,并將圖片進行旋轉(zhuǎn)矯正;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣州市玄武無線科技股份有限公司,未經(jīng)廣州市玄武無線科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110248496.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





