[發明專利]語料中地理位置的識別方法及其相關設備在審
| 申請號: | 202110293571.9 | 申請日: | 2021-03-19 |
| 公開(公告)號: | CN113065354A | 公開(公告)日: | 2021-07-02 |
| 發明(設計)人: | 沈越 | 申請(專利權)人: | 平安普惠企業管理有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06N20/00 |
| 代理公司: | 深圳市世聯合知識產權代理有限公司 44385 | 代理人: | 汪琳琳 |
| 地址: | 518000 廣東省深圳市前海深港合作區前*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語料 地理位置 識別 方法 及其 相關 設備 | ||
本申請實施例屬于人工智能技術領域,應用于智慧城市管理,涉及一種語料中地理位置的識別方法及其相關設備,包括接收待識別語料,基于字段生成策略對所述待識別語料進行拆分處理,獲得多個待識別字段;接收城市三級基表,基于所述城市三級基表的表結構和表內容構建特征概率模型,其中,所述城市三級基表包括三個不同層級的地理位置名稱,且所述不同層級的地理位置名稱之間具有關聯關系;基于所述特征概率模型對所述待識別字段進行校正操作,獲得地理位置特征。其中,特征概率模型可存儲于區塊鏈中。本申請有效糾正對語料中地理位置名稱的糾正,實現輸出準確的地理位置名稱。
技術領域
本申請涉及人工智能技術領域,尤其涉及語料中地理位置的識別方法及其相關設備。
背景技術
隨著計算機技術的不斷革新和發展,計算機技術已經廣泛應用于各行各業中,許多企業通過實體抽取模型對口語化語料中的地理位置進行識別。以實現獲得語料中的地理位置名稱。
但口語語料中常常存在不準確、不完整的地理位置名稱,在通過實體抽取模型進行抽取時,模型難以對地理位置名稱的進行準確的識別和輸出。并且,實體抽取模型在場景應用中有所局限,難以做到“千人千面”。細粒度訓練模型成本較高,根據粒度粗細需要不同量級訓練語料,且人工標記時間較長。對于目前需要以細粒度識別口語化語料中地理位置的場景來說,存在響應速度慢,且準確率較低的情況。
發明內容
本申請實施例的目的在于提出一種語料中地理位置的識別方法及其相關設備,有效提高計算機對語料中地理位置識別的準確率。
為了解決上述技術問題,本申請實施例提供一種語料中地理位置的識別方法,采用了如下所述的技術方案:
一種語料中地理位置的識別方法,包括下述步驟:
接收待識別語料,基于字段生成策略對所述待識別語料進行拆分處理,獲得多個待識別字段;
接收城市三級基表,基于所述城市三級基表的表內容和表結構構建特征概率模型,其中,所述城市三級基表包括三個不同層級的地理位置名稱,且所述不同層級的地理位置名稱之間具有關聯關系;
基于所述特征概率模型對所述待識別字段進行校正操作,獲得地理位置特征。
進一步的,所述基于字段生成策略對所述待識別語料進行拆分處理,獲得多個待識別字段的步驟包括:
對所述待識別語料進行單個字的拆分操作,獲得多個單字;
將所述單字基于所述待識別語料進行延展,獲得所述多個待識別字段。
進一步的,所述將所述單字基于所述待識別語料進行延展,獲得所述多個待識別字段的步驟包括:
基于預設的多個不同的延展數值,分別將每個所述單字在所述待識別語料中進行延展,獲得所述多個待識別字段。
進一步的,所述基于所述特征概率模型對所述待識別字段進行校正操作,獲得地理位置特征的步驟包括:
基于所述特征概率模型中的狀態轉移概率方程,對所述待識別字段進行校正操作,獲得所述地理位置特征。
進一步的,所述城市三級基表設定的表結構層級包括省級、市級和縣級,所述基于所述特征概率模型中的狀態轉移概率方程,對所述待識別字段進行校正操作,獲得所述地理位置特征的步驟包括:
將所述待識別字段與所述地理位置名稱進行匹配,確定是否匹配成功;
當所述待識別字段與所述地理位置名稱匹配成功時,將匹配成功的地理位置名稱作為目標地理位置名稱;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安普惠企業管理有限公司,未經平安普惠企業管理有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110293571.9/2.html,轉載請聲明來源鉆瓜專利網。





