[發明專利]數據處理方法和系統、存儲介質及計算設備在審
| 申請號: | 202010010139.X | 申請日: | 2020-01-06 |
| 公開(公告)號: | CN113076746A | 公開(公告)日: | 2021-07-06 |
| 發明(設計)人: | 張詩禹;羅楚威;王永攀 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/232;G06F40/126;G06K9/62;G06N3/04 |
| 代理公司: | 北京博浩百睿知識產權代理有限責任公司 11134 | 代理人: | 謝湘寧;張文華 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據處理 方法 系統 存儲 介質 計算 設備 | ||
本申請公開了一種數據處理方法和系統、存儲介質及計算設備。其中,該方法包括:獲取原始地址文本,其中,原始地址文本中存在錯誤;利用訓練好的序列標注模型對原始地址文本進行分詞處理,得到原始第一粒度地理區域和原始第二粒度地理區域;利用訓練好的文本生成模型對原始第一粒度地理區域進行處理,得到目標第一粒度地理區域,其中,目標第一粒度地理區域正確;基于目標第一粒度地理區域和原始第二粒度地理區域,生成目標地址文本。本申請解決了相關技術中數據處理方法通過在地址庫中搜索干凈地址文本的方式實現,如果地址庫中未包含相應的干凈地址文本,導致處理準確性較低的技術問題。
技術領域
本申請涉及數據處理領域,具體而言,涉及一種數據處理方法和系統、存儲介質及計算設備。
背景技術
在物流行業中,用戶可以通過拍照的方式將地址信息上傳至云端,但是,由于自然場景復雜,存在光照、折痕等噪聲,OCR(Optical Character Recognition,光學字符識別)不可避免的會存在錯誤,地址錯誤率越高,會嚴重影響用戶體驗。
為了解決上述問題,針對OCR識別出的地址文本,可以首先在地址庫中搜索原地址文本中的干凈子地址(即不存在錯誤的子地址),然后根據干凈子地址進行補全、糾正該子地址前面的地址錯誤,但對于后面的地址錯誤則無法糾正,并且如果原地址文本中沒有干凈子地址,則無法進行任何糾錯。
針對相關技術中數據處理方法通過在地址庫中搜索干凈地址文本的方式實現,如果地址庫中未包含相應的干凈地址文本,導致處理準確性較低的問題,目前尚未提出有效的解決方案。
發明內容
本申請實施例提供了一種數據處理方法和系統、存儲介質及計算設備,以至少解決相關技術中數據處理方法通過在地址庫中搜索干凈地址文本的方式實現,如果地址庫中未包含相應的干凈地址文本,導致處理準確性較低的技術問題。
根據本申請實施例的一個方面,提供了一種數據處理方法,包括:獲取原始地址文本,其中,原始地址文本中存在錯誤;利用訓練好的序列標注模型對原始地址文本進行分詞處理,得到原始第一粒度地理區域和原始第二粒度地理區域;利用訓練好的文本生成模型對原始第一粒度地理區域進行處理,得到目標第一粒度地理區域,其中,目標第一粒度地理區域正確;基于目標第一粒度地理區域和原始第二粒度地理區域,生成目標地址文本。
根據本申請實施例的另一方面,還提供了一種數據處理方法,包括:獲取客戶端發送的原始地址文本,其中,原始地址文本中存在錯誤;利用訓練好的序列標注模型對原始地址文本進行分詞處理,得到原始第一粒度地理區域和原始第二粒度地理區域;利用訓練好的文本生成模型對原始第一粒度地理區域進行處理,得到目標第一粒度地理區域,其中,目標第一粒度地理區域正確;基于目標第一粒度地理區域和原始第二粒度地理區域,生成目標地址文本;發送目標地址文本至客戶端。
根據本申請實施例的另一方面,還提供了一種數據處理方法,包括:觸發客戶端生成處理指令;客戶端基于處理指令獲取原始地址文本,其中,原始地址文本中存在錯誤;客戶端發送原始地址文本至服務器,并接收服務器返回的目標地址文本,其中,目標地址文本基于目標第一粒度地理區域和原始第二粒度地理區域生成,目標第一粒度地理區域是利用訓練好的文本生成模型對原始第一粒度地理區域進行處理得到的,原始第一粒度地理區域和原始第二粒度地理區域是利用訓練好的序列標注模型對原始地址文本進行分詞處理得到的,目標第一粒度地理區域正確;客戶端輸出目標地址文本。
根據本申請實施例的另一方面,還提供了一種數據處理方法,包括:觸發客戶端生成處理指令;客戶端基于處理指令獲取包含有原始地址文本的圖像,其中,原始地址文本中存在錯誤;客戶端發送圖像至服務器,并接收服務器返回的目標地址文本,其中,圖像由服務器進行圖像識別,目標地址文本基于目標第一粒度地理區域和原始第二粒度地理區域生成,目標第一粒度地理區域是利用訓練好的文本生成模型對原始第一粒度地理區域進行處理得到的,原始第一粒度地理區域和原始第二粒度地理區域是利用訓練好的序列標注模型對原始地址文本進行分詞處理得到的,目標第一粒度地理區域正確;客戶端輸出目標地址文本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010010139.X/2.html,轉載請聲明來源鉆瓜專利網。





