[發(fā)明專利]數(shù)據(jù)處理方法和系統(tǒng)、存儲介質及計算設備在審
| 申請?zhí)枺?/td> | 202010010139.X | 申請日: | 2020-01-06 |
| 公開(公告)號: | CN113076746A | 公開(公告)日: | 2021-07-06 |
| 發(fā)明(設計)人: | 張詩禹;羅楚威;王永攀 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/232;G06F40/126;G06K9/62;G06N3/04 |
| 代理公司: | 北京博浩百睿知識產權代理有限責任公司 11134 | 代理人: | 謝湘寧;張文華 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數(shù)據(jù)處理 方法 系統(tǒng) 存儲 介質 計算 設備 | ||
1.一種數(shù)據(jù)處理方法,包括:
獲取原始地址文本,其中,所述原始地址文本中存在錯誤;
利用訓練好的序列標注模型對所述原始地址文本進行分詞處理,得到原始第一粒度地理區(qū)域和原始第二粒度地理區(qū)域;
利用訓練好的文本生成模型對所述原始第一粒度地理區(qū)域進行處理,得到目標第一粒度地理區(qū)域,其中,所述目標第一粒度地理區(qū)域正確;
基于所述目標第一粒度地理區(qū)域和所述原始第二粒度地理區(qū)域,生成目標地址文本。
2.根據(jù)權利要求1所述的方法,其中,利用訓練好的序列標注模型對所述原始地址文本進行分詞處理,得到原始第一粒度地理區(qū)域和原始第二粒度地理區(qū)域,包括:
對所述原始地址文本進行處理,得到所述原始地址文本的第一特征向量;
利用雙向長短期記憶網(wǎng)絡對所述第一特征向量進行處理,得到所述原始地址文本的概率矩陣,其中,所述概率矩陣包括:所述第一特征向量中每個第一特征的概率集合,所述概率集合包括:多個標簽,以及每個標簽對應的概率值;
利用條件隨機場對所述概率矩陣進行處理,得到所述原始地址文本的目標標注序列,其中,所述目標標注序列包括:所述每個第一特征的目標標簽;
基于所述目標標注序列對所述原始地址文本進行劃分,得到所述原始第一粒度地理區(qū)域和所述原始第二粒度地理區(qū)域。
3.根據(jù)權利要求2所述的方法,其中,所述方法還包括:
獲取多個第一地址文本,其中,每個第一地址文本正確;
基于所述多個第一地址文本,生成多個第一訓練數(shù)據(jù),其中,每個第一訓練數(shù)據(jù)包括:所述每個第一地址文本對應的第二地址文本,以及所述第二地址文本的標注序列,所述第二地址文本存在錯誤;
利用所述多個第一訓練數(shù)據(jù)對所述序列標注模型進行訓練,得到所述訓練好的序列標注模型。
4.根據(jù)權利要求3所述的方法,其中,基于所述多個第一地址文本,生成多個第一訓練數(shù)據(jù),包括:
基于第一粒度地理區(qū)域詞表對所述第一地址文本進行過濾,得到第一粒度地理區(qū)域和第二粒度地理區(qū)域;
分別對所述第一粒度地理區(qū)域和所述第二粒度地理區(qū)域進行噪聲處理,得到處理后的第一粒度地理區(qū)域和處理后的第二粒度地理區(qū)域;
基于所述處理后的第一粒度地理區(qū)域和所述處理后的第二粒度地理區(qū)域,生成所述第二地址文本。
5.根據(jù)權利要求1所述的方法,其中,利用訓練好的文本生成模型對所述原始第一粒度地理區(qū)域進行處理,得到目標第一粒度地理區(qū)域,包括:
對所述原始第一粒度地理區(qū)域進行處理,得到所述原始第一粒度地理區(qū)域的第二特征向量;
利用編碼器對所述第二特征向量進行處理,得到所述原始第一粒度地理區(qū)域的目標向量;
利用解碼器對所述目標向量和所述目標向量對應的歷史輸出結果進行處理,得到所述目標第一粒度地理區(qū)域。
6.根據(jù)權利要求5所述的方法,其中,所述方法還包括:
獲取第一粒度地理區(qū)域詞表,其中,所述第一粒度地理區(qū)域詞表包括:多個第一粒度地理區(qū)域單詞,每個第一粒度地理區(qū)域單詞正確;
基于所述第一粒度地理區(qū)域詞表,生成多個第二訓練數(shù)據(jù),其中,每個第二訓練數(shù)據(jù)包括:第一粒度地理區(qū)域的正樣本和負樣本,所述正樣本正確,且所述負樣本中存在錯誤;
利用所述多個第二訓練數(shù)據(jù)對所述文本生成模型進行訓練,得到所述訓練好的文本生成模型。
7.根據(jù)權利要求6所述的方法,其中,基于所述第一粒度地理區(qū)域詞表,生成多個第二訓練數(shù)據(jù),包括:
對所述多個第一粒度地理區(qū)域單詞進行排列組合,得到所述正樣本;
對所述正樣本進行噪聲處理,得到所述負樣本;
基于所述正樣本和所述負樣本,生成所述第二訓練數(shù)據(jù)。
8.根據(jù)權利要求6所述的方法,其中,所述第一粒度地理區(qū)域單詞的類型包括如下之一:名稱、后綴和少數(shù)民族。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經(jīng)阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010010139.X/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)處理設備,數(shù)據(jù)處理方法,和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理電路、數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法、數(shù)據(jù)處理控制方法
- 數(shù)據(jù)處理設備、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及計算機可讀取的記錄介質
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序





