[發明專利]終端門店名稱的提取方法、裝置、設備和計算機存儲介質有效
| 申請號: | 202211189096.1 | 申請日: | 2022-09-28 |
| 公開(公告)號: | CN115270800B | 公開(公告)日: | 2023-03-24 |
| 發明(設計)人: | 許名智;林沛欣;關梓文;許潔斌 | 申請(專利權)人: | 廣州市玄武無線科技股份有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/242 |
| 代理公司: | 廣州駿思知識產權代理有限公司 44425 | 代理人: | 王晶 |
| 地址: | 510000 廣東省廣州市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 終端 店名 提取 方法 裝置 設備 計算機 存儲 介質 | ||
1.終端門店名稱的提取方法,其特征在于,包括如下步驟:
S1:獲取待提取文本;
S2:對待提取文本進行預處理,得到預處理文本;步驟S2包括:S21:基于符號和特殊字符建立正則表達式,并利用正則表達式去除待提取文本中的符號和特殊字符,得到初始預處理文本;S22:識別、并去除所述初始預處理文本中的地址信息,得到預處理文本,且地址信息包括省、市、區以及街道中的至少一種信息;
S3:對預處理文本進行分詞處理,得到分詞單元;步驟S3包括:S31:獲取所述產品特性詞典、所述地標性詞典和分詞模型,并將所述產品特性詞典、所述地標性詞典輸入所述分詞模型中,得到分詞解釋器;S32:利用所述分詞解釋器對所述預處理文本進行切分,得到所述分詞單元;
步驟S32包括:S321:獲取統計詞典,并利用統計詞典構造預處理文本的前綴詞典;S322:基于前綴詞典,對所述預處理文本進行預切分,得到預處理文本的切分組合;S323:基于預處理文本的切分組合,構建預處理文本的有向無環圖;S324:按照從后向前的順序,利用動態規劃查找所述有向無環圖的最大概率路徑;S325:基于所述有向無環圖的最大概率路徑確定所述預處理文本的切分位置,并對預處理文本進行切分,得到所述分詞單元;
S4:基于分詞單元建立分詞數組,并將分詞數組中的元素分別與停用詞詞典、產品特性詞典、地標性詞典和歸一化詞典進行匹配,并根據匹配結果對分詞數組進行優化,得到優化的分詞數組;
S5:將優化的分詞數組中的元素進行拼接,得到初始終端門店名稱;
S6:基于初始終端門店名稱的字符長度對初始終端門店名稱進行優化,得到終端門店名稱。
2.根據權利要求1所述的終端門店名稱的提取方法,其特征在于,步驟S325中,對預處理文本進行切分,得到所述分詞單元,包括:
對預處理文本進行切分,得到多個詞;
判斷多個詞的詞性,并根據多個詞的詞性對多個詞按照名稱詞、產品特性詞和地標性詞的順序進行排列,得到所述分詞單元。
3.根據權利要求1-2任一項所述的終端門店名稱的提取方法,其特征在于,步驟S4包括:
S41:獲取停用詞詞典,并將所述分詞數組中的元素分別與所述停用詞詞典中的詞進行匹配,當匹配成功時刪除元素中的停用詞,得到第一優化數組;
S42:將所述第一優化數組中的元素分別與產品特性詞典中的詞和地標性詞典中的詞進行匹配,當匹配成功時刪除匹配成功的元素,得到第二優化數組;
S43:獲取歸一化詞典,并將所述第二優化數組中的元素分別與歸一化詞典中的詞進行匹配,當匹配成功時,將匹配成功的元素替換為歸一化詞典中的詞;
S44:重復步驟S41-S43,直到優化的分詞數組的元素在停用詞詞典、產品特性詞典中、地標性詞典以及歸一化詞典中均不存在匹配結果,得到優化的分詞數組。
4.根據權利要求3所述的終端門店名稱的提取方法,其特征在于,步驟S6包括:
S61:獲取初始終端門店名稱的字符長度和字符長度閾值;
S62:將初始終端門店名稱的字符長度和字符長度閾值進行比較,當初始終端門店名稱的字符長度大于或等于字符長度閾值時,確定所述初始終端門店名稱為終端門店名稱;
或者,
當初始終端門店名稱的字符長度小于字符長度閾值時,重復步驟S3-S5,得到改進的初始終端門店名稱;當改進的初始終端門店名稱的字符長度大于或等于字符長度閾值時,確定改進的初始終端門店名稱為終端門店名稱;當改進的初始終端門店名稱的字符長度小于字符長度閾值時,確定預處理文本為終端門店名稱。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州市玄武無線科技股份有限公司,未經廣州市玄武無線科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211189096.1/1.html,轉載請聲明來源鉆瓜專利網。





