[發明專利]一種實體詞識別方法及裝置在審
| 申請號: | 202110181496.7 | 申請日: | 2021-02-08 |
| 公開(公告)號: | CN112966511A | 公開(公告)日: | 2021-06-15 |
| 發明(設計)人: | 陳開冉;黎展;張天翔 | 申請(專利權)人: | 廣州探跡科技有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F16/35;G06F16/36 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 陳旭紅;呂金金 |
| 地址: | 511400 廣東省廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 實體詞 識別 方法 裝置 | ||
1.一種實體詞識別方法,其特征在于,所述方法包括:
利用預先構建好的知識圖譜確定目標句子中各地名實體詞之間的知識特征,并以所述知識特征作為對應目標句子的分類特征;其中,所述目標句子為待識別文檔中至少包含兩個地名實體詞的句子;所述知識特征包括在知識圖譜中預先設定的兩個地名實體詞之間的以下信息中的至少一個:包含關系、相鄰關系、非相鄰關系、距離、是否為別名;
根據目標句子及其對應的分類特征,利用預先訓練好的分類模型確定所述目標句子中的各地名實體詞的類別;其中,所述類別包括第一類別和第二類別,所述第一類別表示該地名實體詞不包含于實體場景中,所述第二類別表示該地名實體詞包含于實體場景中。
2.根據權利要求1所述的一種實體詞識別方法,其特征在于,在利用預先構建好的知識圖譜確定目標句子中各地名實體詞之間的知識特征的步驟之前,所述方法還包括:
獲取待識別文檔;
利用預先訓練好的地名命名實體識別模型確定待識別文檔中的地名實體詞;
確定各地名實體詞所在的句子。
3.根據權利要求2所述的一種實體詞識別方法,其特征在于,所述確定各地名實體詞所在的句子的過程,具體包括:
利用正則匹配確定各地名實體詞所在的完整句子。
4.一種實體詞識別裝置,其特征在于,所述裝置包括:
分類特征確定模塊,用于利用預先構建好的知識圖譜確定目標句子中各地名實體詞之間的知識特征,并以所述知識特征作為對應目標句子的分類特征;其中,所述目標句子為待識別文檔中至少包含兩個地名實體詞的句子;所述知識特征包括在知識圖譜中預先設定的兩個地名實體詞之間的以下信息中的至少一個:包含關系、相鄰關系、非相鄰關系、距離、是否為別名;
類別確定模塊,用于根據目標句子及其對應的分類特征,利用預先訓練好的分類模型確定所述目標句子中的各地名實體詞的類別;其中,所述類別包括第一類別和第二類別,所述第一類別表示該地名實體詞不包含于實體場景中,所述第二類別表示該地名實體詞包含于實體場景中。
5.根據權利要求4所述的一種實體詞識別裝置,其特征在于,所述裝置還包括:
獲取模塊,用于獲取待識別文檔;
實體詞確定模塊,用于利用預先訓練好的地名命名實體識別模型確定待識別文檔中的地名實體詞;
句子確定模塊,用于確定各地名實體詞所在的句子。
6.根據權利要求5所述的一種實體詞識別裝置,其特征在于,所述句子確定模塊還用于:
利用正則匹配確定各地名實體詞所在的完整句子。
7.一種電子設備,包括:存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于,所述處理器執行所述程序時實現如權利要求1至3中任一項所述的實體詞識別方法。
8.一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機可執行指令,其特征在于,所述計算機可執行指令用于使計算機執行如權利要求1至3中任一項所述的實體詞識別方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州探跡科技有限公司,未經廣州探跡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110181496.7/1.html,轉載請聲明來源鉆瓜專利網。





