[發(fā)明專利]地址信息的處理方法和裝置有效
| 申請?zhí)枺?/td> | 201910105093.7 | 申請日: | 2019-02-01 |
| 公開(公告)號: | CN111538914B | 公開(公告)日: | 2023-05-30 |
| 發(fā)明(設(shè)計)人: | 劉楚;鄭華飛;謝朋峻;李林琳;司羅 | 申請(專利權(quán))人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F16/9537 | 分類號: | G06F16/9537;G06F16/33;G06F40/103 |
| 代理公司: | 北京博浩百睿知識產(chǎn)權(quán)代理有限責(zé)任公司 11134 | 代理人: | 謝湘寧;張文華 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 地址 信息 處理 方法 裝置 | ||
本發(fā)明公開了一種地址信息的處理方法和裝置。其中,該方法包括:獲取待處理地址信息;使用指示器網(wǎng)絡(luò)模型對所述待處理地址信息進行標(biāo)準(zhǔn)化處理,得到標(biāo)準(zhǔn)化地址。本發(fā)明解決了現(xiàn)有技術(shù)中對裁判結(jié)果進行的偏離預(yù)警不準(zhǔn)確的技術(shù)問題。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,具體而言,涉及一種地址信息的處理方法和裝置。
背景技術(shù)
在物流、警務(wù)等領(lǐng)域,地址信息至關(guān)重要,因此通常需要積累大量的地址文本。但其中大部分文本是非標(biāo)準(zhǔn)化的,這些非標(biāo)準(zhǔn)文本需要通過對地址元素進行提取、標(biāo)注、歸一、補齊以及去重和標(biāo)準(zhǔn)輸出,從而形成標(biāo)準(zhǔn)化地址,進而用于地址的存檔和其他服務(wù)使用。
目前對地址的標(biāo)準(zhǔn)化處理通常采用如下兩種方式:1、人工制訂地址標(biāo)準(zhǔn)化的規(guī)則。通過觀察樣本數(shù)據(jù)制定出人工規(guī)則,輸入的非標(biāo)準(zhǔn)地址將會依據(jù)這些人工規(guī)則轉(zhuǎn)化為標(biāo)準(zhǔn)的輸出。此種方式在小數(shù)據(jù)集上較為高效,但是難以應(yīng)付海量的文本數(shù)據(jù),其缺點在于制定的規(guī)則難以覆蓋所有的文本情況,同時在樣本數(shù)據(jù)增加的時候需要人工跟進制定新的規(guī)則,消耗的人力成本較大。2、通過生成的RNN網(wǎng)絡(luò),將地址文本標(biāo)準(zhǔn)化視為一個seq2seq的問題,依據(jù)輸入的非標(biāo)準(zhǔn)文本通過RNN的網(wǎng)絡(luò)生成式的產(chǎn)生一個標(biāo)準(zhǔn)化的文本輸出,但此類網(wǎng)絡(luò)的缺點在于生成標(biāo)準(zhǔn)化輸出通常會制定一個確定大小的詞表,輸出的序列每一步均為此詞表上的一個概率分布,此分布的樣本較多,容易產(chǎn)生出不在輸入內(nèi)容當(dāng)中的詞語,同時也難以處理一些輸入內(nèi)容不在預(yù)先制定詞表當(dāng)中的非標(biāo)準(zhǔn)地址。由此可知,目前在對地址信息進行標(biāo)準(zhǔn)化處理時,缺乏端到端的解決方案,且目前對地址信息進行標(biāo)準(zhǔn)化處理的準(zhǔn)確度均較低。
針對現(xiàn)有技術(shù)中對地址信息進行標(biāo)準(zhǔn)化處理的結(jié)果不準(zhǔn)確的問題,目前尚未提出有效的解決方案。
發(fā)明內(nèi)容
本發(fā)明實施例提供了一種地址信息的處理方法,以至少解決現(xiàn)有技術(shù)中對裁判結(jié)果進行的偏離預(yù)警不準(zhǔn)確的技術(shù)問題。
根據(jù)本發(fā)明實施例的一個方面,提供了一種地址信息的處理方法,包括:獲取待處理地址信息;使用指示器網(wǎng)絡(luò)模型對所述待處理地址信息進行標(biāo)準(zhǔn)化處理,得到標(biāo)準(zhǔn)化地址。
根據(jù)本發(fā)明實施例的另一方面,還提供了一種地址信息的處理方法,包括:接收檢索式,其中,檢索式包括文本格式的地址信息;對檢索式中的地址信息進行預(yù)處理,得到待處理地址信息,其中,待處理地址信息包括滿足標(biāo)準(zhǔn)條件的地址詞語;使用指示器網(wǎng)絡(luò)模型對待處理地址信息進行標(biāo)準(zhǔn)化處理,得到標(biāo)準(zhǔn)化地址,其中,根據(jù)樣本數(shù)據(jù)訓(xùn)練指示器網(wǎng)絡(luò)模型。
根據(jù)本發(fā)明實施例的另一方面,還提供了一種地址信息的處理裝置,包括:獲取模塊,用于獲取待處理地址信息;處理模塊,用于使用指示器網(wǎng)絡(luò)模型對所述待處理地址信息進行標(biāo)準(zhǔn)化處理,得到標(biāo)準(zhǔn)化地址。
根據(jù)本發(fā)明實施例的另一方面,還提供了一種地址信息的處理裝置,包括:接收模塊,用于接收檢索式,其中,檢索式包括文本格式的地址信息;預(yù)處理模塊,用于對檢索式中的地址信息進行預(yù)處理,得到待處理地址信息,其中,待處理地址信息包括滿足標(biāo)準(zhǔn)條件的地址詞語;處理模塊,用于使用指示器網(wǎng)絡(luò)模型對待處理地址信息進行標(biāo)準(zhǔn)化處理,得到標(biāo)準(zhǔn)化地址,其中,根據(jù)樣本數(shù)據(jù)訓(xùn)練指示器網(wǎng)絡(luò)模型。
根據(jù)本發(fā)明實施例的另一方面,還提供了一種存儲介質(zhì),存儲介質(zhì)包括存儲的程序,其中,在程序運行時控制存儲介質(zhì)所在設(shè)備執(zhí)行如下步驟:獲取待處理地址信息;使用指示器網(wǎng)絡(luò)模型對所述待處理地址信息進行標(biāo)準(zhǔn)化處理,得到標(biāo)準(zhǔn)化地址。
根據(jù)本發(fā)明實施例的另一方面,還提供了一種處理器,處理器用于運行程序,其中,程序運行時執(zhí)行如下步驟:獲取待處理地址信息;使用指示器網(wǎng)絡(luò)模型對所述待處理地址信息進行標(biāo)準(zhǔn)化處理,得到標(biāo)準(zhǔn)化地址。
根據(jù)本發(fā)明實施例的一個方面,提供了一種地址信息的處理方法,包括:對地址數(shù)據(jù)進行預(yù)處理,得到待處理地址信息,其中,待處理地址信息至少包括滿足標(biāo)準(zhǔn)條件的地址詞語;使用指示器網(wǎng)絡(luò)模型對待處理地址信息進行標(biāo)準(zhǔn)化處理,得到標(biāo)準(zhǔn)化地址,其中,根據(jù)樣本數(shù)據(jù)訓(xùn)練指示器網(wǎng)絡(luò);輸出標(biāo)準(zhǔn)化地址。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于阿里巴巴集團控股有限公司,未經(jīng)阿里巴巴集團控股有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910105093.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





