[發明專利]語料中地理位置的識別方法及其相關設備在審

申請號：	202110293571.9	申請日：	2021-03-19
公開（公告）號：	CN113065354A	公開（公告）日：	2021-07-02
發明（設計）人：	沈越	申請（專利權）人：	平安普惠企業管理有限公司
主分類號：	G06F40/295	分類號：	G06F40/295;G06N20/00
代理公司：	深圳市世聯合知識產權代理有限公司 44385	代理人：	汪琳琳
地址：	518000 廣東省深圳市前海深港合作區前***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	語料地理位置識別方法及其相關設備
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本申請實施例屬于人工智能技術領域，應用于智慧城市管理，涉及一種語料中地理位置的識別方法及其相關設備，包括接收待識別語料，基于字段生成策略對所述待識別語料進行拆分處理，獲得多個待識別字段；接收城市三級基表，基于所述城市三級基表的表結構和表內容構建特征概率模型，其中，所述城市三級基表包括三個不同層級的地理位置名稱，且所述不同層級的地理位置名稱之間具有關聯關系；基于所述特征概率模型對所述待識別字段進行校正操作，獲得地理位置特征。其中，特征概率模型可存儲于區塊鏈中。本申請有效糾正對語料中地理位置名稱的糾正，實現輸出準確的地理位置名稱。

技術領域

本申請涉及人工智能技術領域，尤其涉及語料中地理位置的識別方法及其相關設備。

背景技術

隨著計算機技術的不斷革新和發展，計算機技術已經廣泛應用于各行各業中，許多企業通過實體抽取模型對口語化語料中的地理位置進行識別。以實現獲得語料中的地理位置名稱。

但口語語料中常常存在不準確、不完整的地理位置名稱，在通過實體抽取模型進行抽取時，模型難以對地理位置名稱的進行準確的識別和輸出。并且，實體抽取模型在場景應用中有所局限，難以做到“千人千面”。細粒度訓練模型成本較高，根據粒度粗細需要不同量級訓練語料，且人工標記時間較長。對于目前需要以細粒度識別口語化語料中地理位置的場景來說，存在響應速度慢，且準確率較低的情況。

發明內容

本申請實施例的目的在于提出一種語料中地理位置的識別方法及其相關設備，有效提高計算機對語料中地理位置識別的準確率。

為了解決上述技術問題，本申請實施例提供一種語料中地理位置的識別方法，采用了如下所述的技術方案：

一種語料中地理位置的識別方法，包括下述步驟：

接收待識別語料，基于字段生成策略對所述待識別語料進行拆分處理，獲得多個待識別字段；

接收城市三級基表，基于所述城市三級基表的表內容和表結構構建特征概率模型，其中，所述城市三級基表包括三個不同層級的地理位置名稱，且所述不同層級的地理位置名稱之間具有關聯關系；

基于所述特征概率模型對所述待識別字段進行校正操作，獲得地理位置特征。

進一步的，所述基于字段生成策略對所述待識別語料進行拆分處理，獲得多個待識別字段的步驟包括：

對所述待識別語料進行單個字的拆分操作，獲得多個單字；

將所述單字基于所述待識別語料進行延展，獲得所述多個待識別字段。

進一步的，所述將所述單字基于所述待識別語料進行延展，獲得所述多個待識別字段的步驟包括：

基于預設的多個不同的延展數值，分別將每個所述單字在所述待識別語料中進行延展，獲得所述多個待識別字段。