[發(fā)明專利]一種下單地址結(jié)構(gòu)化解析方法和系統(tǒng)有效
| 申請?zhí)枺?/td> | 201911189592.5 | 申請日: | 2019-11-28 |
| 公開(公告)號: | CN111198954B | 公開(公告)日: | 2023-08-22 |
| 發(fā)明(設(shè)計)人: | 趙興;陳才寧 | 申請(專利權(quán))人: | 深圳市跨越新科技有限公司 |
| 主分類號: | G06F16/387 | 分類號: | G06F16/387;G06F16/383 |
| 代理公司: | 深圳國新南方知識產(chǎn)權(quán)代理有限公司 44374 | 代理人: | 周雷 |
| 地址: | 518000 廣東省深圳市寶安區(qū)航城*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 地址 結(jié)構(gòu) 化解 方法 系統(tǒng) | ||
1.一種下單地址結(jié)構(gòu)化解析方法,其特征在于,包括如下步驟:
S1、將待解析下單地址文本項作預(yù)處理后得到預(yù)處理信息,使用預(yù)設(shè)間隔符替代所述待解析下單地址文本項中的預(yù)處理信息,分割成包含地址信息和姓名信息在內(nèi)的多個子文本項;所述多個子文本項依預(yù)處理前的文本順序依次排序;
S2、將子文本項依次與省市集合數(shù)據(jù)集作省市匹配,直至提取出有效省市信息;
S3、從所述多個子文本項中提取出姓名信息;
S4、根據(jù)含有效省市信息的子文本項和含姓名信息的子文本項間的位置關(guān)系,提取出地址信息,包括:
S41、若所述含姓名信息的子文本項在含有效省市信息的子文本項之前,則提取所述含有效省市信息的子文本項之后的所有子文本項作為所述地址信息;
S42、若所述含姓名信息的子文本項在含有效省市信息的子文本項之后,則提取所述含姓名信息的子文本項與含有效省市信息的子文本項之間的所有子文本項作為所述地址信息;
S43、若所述含姓名信息的子文本項與含有效省市信息的子文本項為同一個,則提取該子文本項中姓名信息與有效省市信息之間的文本作為所述地址信息。
2.根據(jù)權(quán)利要求1所述的下單地址結(jié)構(gòu)化解析方法,其特征在于,所述步驟S1包括:
S11、根據(jù)預(yù)設(shè)匹配規(guī)則,識別出待解析下單地址文本項中的預(yù)處理信息;所述預(yù)處理信息包含預(yù)設(shè)關(guān)鍵字段、數(shù)字信息以及標(biāo)點符號;
S12、使用預(yù)設(shè)間隔符替代所述待解析下單地址文本項中的預(yù)處理信息,將待解析下單地址文本項分割成包含地址信息和姓名信息在內(nèi)的多個子文本項。
3.根據(jù)權(quán)利要求1或2所述的下單地址結(jié)構(gòu)化解析方法,其特征在于,所述步驟S3包括:
S31、選取不含有效省市信息的子文本項中文本長度為2至4的子文本項;
S32、將所述文本長度為2至4的子文本項依次與預(yù)設(shè)姓氏集合數(shù)據(jù)集作姓氏匹配,直至提取出姓名信息;
S33、若步驟S32未匹配成功,則將含有效省市信息的子文本項與預(yù)設(shè)姓氏集合數(shù)據(jù)集作姓氏匹配,提取出姓名信息。
4.根據(jù)權(quán)利要求1所述的下單地址結(jié)構(gòu)化解析方法,其特征在于,所述步驟S2中的有效省市信息包括城市名稱信息,或省份和城市名稱信息,且省份信息的文本順序在城市名稱信息文本順序之前。
5.一種下單地址結(jié)構(gòu)化解析系統(tǒng),其特征在于,包括:
預(yù)處理模塊,用于將待解析下單地址文本項作預(yù)處理后得到預(yù)處理信息,使用預(yù)設(shè)間隔符替代所述待解析下單地址文本項中的預(yù)處理信息,分割成包含地址信息和姓名信息在內(nèi)的多個子文本項;所述多個子文本項依預(yù)處理前的文本順序依次排序;
省市信息提取模塊,用于將子文本項依次與省市集合數(shù)據(jù)集作省市匹配,直至提取出有效省市信息;
姓名信息提取模塊,用于從所述多個子文本項中提取出姓名信息;
地址信息提取模塊,用于根據(jù)含有效省市信息的子文本項和含姓名信息的子文本項間的位置關(guān)系,提取出地址信息;
所述地址信息提取模塊包括:
第一地址信息提取單元,用于若所述含姓名信息的子文本項在含有效省市信息的子文本項之前,則提取所述含有效省市信息的子文本項之后的所有子文本項作為所述地址信息;
第二地址信息提取單元,用于若所述含姓名信息的子文本項在含有效省市信息的子文本項之后,則提取所述含姓名信息的子文本項與含有效省市信息的子文本項之間的所有子文本項作為所述地址信息;
第三地址信息提取單元,用于若所述含姓名信息的子文本項與含有效省市信息的子文本項為同一個,則提取所述子文本項中姓名信息與有效省市信息之間的文本作為所述地址信息。
6.根據(jù)權(quán)利要求5所述的下單地址結(jié)構(gòu)化解析系統(tǒng),其特征在于,所述預(yù)處理模塊包括:
識別單元,用于根據(jù)預(yù)設(shè)匹配規(guī)則,識別出待解析下單地址文本項中的預(yù)處理信息;所述預(yù)處理信息包含預(yù)設(shè)關(guān)鍵字段、數(shù)字信息以及標(biāo)點符號;
預(yù)處理單元,用于使用預(yù)設(shè)間隔符替代所述待解析下單地址文本項中的預(yù)處理信息,將待解析下單地址文本項分割成包含地址信息和姓名信息在內(nèi)的多個子文本項。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳市跨越新科技有限公司,未經(jīng)深圳市跨越新科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911189592.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 卡片結(jié)構(gòu)、插座結(jié)構(gòu)及其組合結(jié)構(gòu)
- 鋼結(jié)構(gòu)平臺結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 單元結(jié)構(gòu)、結(jié)構(gòu)部件和夾層結(jié)構(gòu)
- 鋼結(jié)構(gòu)扶梯結(jié)構(gòu)
- 鋼結(jié)構(gòu)隔墻結(jié)構(gòu)
- 鋼結(jié)構(gòu)連接結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機(jī)械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機(jī)械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)





