[發明專利]基于狀態空間投票法的地址單元解析方法及裝置在審
| 申請號: | 202210506857.5 | 申請日: | 2022-05-11 |
| 公開(公告)號: | CN115186043A | 公開(公告)日: | 2022-10-14 |
| 發明(設計)人: | 王功明;魏金雷;潘心冰;李明明 | 申請(專利權)人: | 浪潮云信息技術股份公司 |
| 主分類號: | G06F16/29 | 分類號: | G06F16/29;G06F40/295;G06K9/62 |
| 代理公司: | 濟南信達專利事務所有限公司 37100 | 代理人: | 潘悅梅 |
| 地址: | 250100 山東省濟南市高*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 狀態 空間 投票 地址 單元 解析 方法 裝置 | ||
本發明公開了基于狀態空間投票法的地址單元解析方法及裝置,屬于地址單元解析技術領域,要解決的技術問題為直接投票法融合多個地址單元標簽時、容易導致標注結果不規范。包括如下步驟:S1、構建相鄰單字標注結果的狀態轉移映射表,相鄰單字標注結果的狀態轉移映射表用于表示相鄰單字標注結果的約束關系;S2、選取多個已訓練的地址單元標注模型,對于每條待處理文本,每個已訓練的地址單元標注模型分別進行數據處理、并輸出地址單元標注序列;S3、對于多個已訓練的地址單元標注模型輸出的地址單元標注序列,根據相鄰單字標注結果的狀態轉移映射表、通過投票法進行融合,得到符合規范的標注結果;S4、從標注結果中提取地址單元。
技術領域
本發明涉及地址單元解析技術領域,具體地說是基于狀態空間投票法的地址單元解析方法及裝置。
背景技術
地址單元解析是從快遞單、工單、發票等文本中提取出描述空間位置的各類要素,包括:省、市、縣、鄉、村、道路、建筑、門牌號、方位、距離等,在物流、快遞、電商、貿易等行業具有重要的應用價值。對句子“新昌世貿電影城位于新昌縣鼓山東路196號的新昌世貿廣場四層。”進行地址單元解析,結果是“SPoi=新昌世貿電影城”、“Dist=新昌縣”、“Road=鼓山東路”、“RoadNum=196號”、“Poi=新昌世貿廣場”、“PosNum=四層”;其中,Dist、Poi、SPoi、PosNum、Road、RoadNum分別表示縣級行政區、興趣點、子興趣點、指代興趣點或子興趣點的號碼、道路、道路的建筑物號碼。
常用地址單元解析方法包括:關鍵詞匹配法、詞庫匹配法、地址樹匹配法、序列標注法、深度學習法、“深度學習+序列標注”法。每種方法都有各自的優勢和不足,前3種方法是基于匹配的方法,對已有地址單元的識別能力很強,但是缺乏學習能力,無法識別未知地址單元;后3種方法是基于概率統計的方法,具有推理能力,可以識別未知地址單元,但在精準匹配方面不如前3種方法。此外,每種方法在應用中演化出不同的模型,例如深度學習法包括RNN、 Bi-LSTM、Bi-LSTM+CRF、Bert、ERNIE等模型,這些模型具有不同的偏好,其性能容易受到待處理數據特征分布的影響。由此可知,將待處理數據按照特征進行分割,單個模型在不同劃分上存在性能差異,這種性能分布的不均衡性會影響地址單元解析的效果。
集成學習(Ensemble learning)通過構建并結合多個學習器來完成學習任務,通過組合來消除單個模型性能分布的不均衡性,得到更全面的高性能模型。其核心思想是即使某個學習器產生了預測錯誤,其它學習器也可以將錯誤糾正過來。因此,在地址單元解析中,通過集成學習來融合不同模型,可以得到性能分布均衡的地址單元解析模型。
按照待集成對象的差異,集成學習分為集成模型和集成結果兩類,它們的集成對象分別是模型本身和處理結果。其中,集成模型類方法依賴模型本身,只能結合滿足要求的模型,適用性有限;此外,在某些情況下,這類方法還需要修改模型結構和處理流程,復雜性較高。集成結果類方法通過分析不同模型的處理結果得到融合結果,常用方法是投票法,即將出現次數最多的處理結果作為融合結果。在地址單元解析的應用場景中,采用投票法融合不同模型的地址單元標注序列,從融合結果中提取地址單元,可以規避集成模型類方法的缺陷,復雜性低、適用性廣。但是,直接采用投票法容易產生標注結果不規范問題,例如:對基于BIEOS方法的實體標簽進行投票法融合,實體標簽B-Dist 的后繼相鄰實體標簽融合后為S-Dist,破壞了BIEOS方法的標注規范,影響地址單元提取的效果。產生上述不規范問題的原因是沒有考慮相鄰單字標注結果的約束關系。
基于上述分析,直接投票法融合多個地址單元標簽時,容易導致標注結果不規范,是需要解決的技術問題。
發明內容
本發明的技術任務是針對以上不足,提供基于狀態空間投票法的地址單元解析方法及裝置,來解決直接投票法融合多個地址單元標簽時,容易導致標注結果不規范的技術問題。
第一方面,本發明的基于狀態空間投票法的地址單元解析方法,包括如下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浪潮云信息技術股份公司,未經浪潮云信息技術股份公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210506857.5/2.html,轉載請聲明來源鉆瓜專利網。





