[發明專利]一種實體詞識別方法及裝置在審
| 申請號: | 202110181496.7 | 申請日: | 2021-02-08 |
| 公開(公告)號: | CN112966511A | 公開(公告)日: | 2021-06-15 |
| 發明(設計)人: | 陳開冉;黎展;張天翔 | 申請(專利權)人: | 廣州探跡科技有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F16/35;G06F16/36 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 陳旭紅;呂金金 |
| 地址: | 511400 廣東省廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 實體詞 識別 方法 裝置 | ||
本發明公開了一種實體詞識別方法及裝置,本方法通過構建實體庫(即知識圖譜),該實體庫中包含了專有的實體詞,這些專有的實體詞包括公司名稱、項目產品以及其他的特殊場景等實體詞,通過該實體庫,在后續對文本中涉及的地名實體詞進行分類時,可以明確該地名實體詞的類別;從而能夠準確識別出一個地名實體詞是否包含于公司名稱或者項目產品或者商場名稱中(統稱為實體場景),提高文本識別的準確率。
技術領域
本發明涉及自然語言處理技術領域,特別涉及一種實體詞識別方法及裝置。
背景技術
對于一段文本而言,為了完成某項任務,例如需要統計該文本內容中出現的地名實體詞(例如省,市,區,縣,鎮等),一般可以采用文本匹配的方法來獲取該段文本中出現的該類地名實體詞(不妨稱為第一類別)。
但是由于現有技術中的文本匹配方法一般采用通用字典進行分詞,無法區分公司名稱或者項目產品或者商場名稱等專有的實體詞,因此對于公司名稱中出現地名實體詞(不妨稱為第二類別)的情況,也會錯誤的將該公司名稱中出現的地名實體詞進行統計。
例如,在一段新聞的文本中,其內容為“1月份,廣州A公司在北京海淀區設立了北京分公司,這對于廣州A公司而言是個值得紀念的日子”。在該新聞示例中,【廣州】屬于第二類別,【北京】屬于第一類別;在實際任務中,我們實際上需要統計的是該新聞中出現了【北京】這一地名實體詞,而【廣州】這一地名實體詞是干擾,應該排除。
因此,在文本識別中,如何準確識別出一個地名實體詞是否包含于公司名稱或者項目產品或者商場名稱中(統稱為實體場景),成為提高文本識別準確率的關鍵因素。
發明內容
本發明的目的在于至少解決現有技術中存在的技術問題之一,提供一種實體詞識別方法及裝置,能夠準確識別出一個地名實體詞是否包含于公司名稱或者項目產品或者商場名稱中(統稱為實體場景),提高文本識別的準確率。
為了實現上述發明目的,本發明提供如下技術方案:
第一方面,本發明提供了一種實體詞識別方法,所述方法包括:
利用預先構建好的知識圖譜確定目標句子中各地名實體詞之間的知識特征,并以所述知識特征作為對應目標句子的分類特征;其中,所述目標句子為待識別文檔中至少包含兩個地名實體詞的句子;所述知識特征包括在知識圖譜中預先設定的兩個地名實體詞之間的以下信息中的至少一個:包含關系、相鄰關系、非相鄰關系、距離、是否為別名;
根據目標句子及其對應的分類特征,利用預先訓練好的分類模型確定所述目標句子中的各地名實體詞的類別;其中,所述類別包括第一類別和第二類別,所述第一類別表示該地名實體詞不包含于實體場景中,所述第二類別表示該地名實體詞包含于實體場景中。
作為進一步改進,在利用預先構建好的知識圖譜確定目標句子中各地名實體詞之間的知識特征的步驟之前,所述方法還包括:
獲取待識別文檔;
利用預先訓練好的地名命名實體識別模型確定待識別文檔中的地名實體詞;
確定各地名實體詞所在的句子。
作為進一步改進,所述確定各地名實體詞所在的句子的過程,具體包括:
利用正則匹配確定各地名實體詞所在的完整句子。
第二方面,本發明提供了一種實體詞識別裝置,所述裝置包括:
分類特征確定模塊,用于利用預先構建好的知識圖譜確定目標句子中各地名實體詞之間的知識特征,并以所述知識特征作為對應目標句子的分類特征;其中,所述目標句子為待識別文檔中至少包含兩個地名實體詞的句子;所述知識特征包括在知識圖譜中預先設定的兩個地名實體詞之間的以下信息中的至少一個:包含關系、相鄰關系、非相鄰關系、距離、是否為別名;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州探跡科技有限公司,未經廣州探跡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110181496.7/2.html,轉載請聲明來源鉆瓜專利網。





