[發明專利]實體識別方法及裝置在審
| 申請號: | 202110282485.8 | 申請日: | 2021-03-16 |
| 公開(公告)號: | CN113065353A | 公開(公告)日: | 2021-07-02 |
| 發明(設計)人: | 劉文強 | 申請(專利權)人: | 北京金堤征信服務有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/30;G06K9/62;G06N3/02;G06F16/33 |
| 代理公司: | 北京工信聯合知識產權代理有限公司 11266 | 代理人: | 劉愛麗 |
| 地址: | 100086 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 實體 識別 方法 裝置 | ||
本公開的實施例提供了實體識別方法及裝置,該方法包括:基于預設文本語料,構建實體字典,實體字典包括第一實體字典和第二實體字典;根據第一實體字典和第二實體字典訓練實體識別模型,基于訓練文本語料通過預設算法對實體識別模型進行校正;在接收到新的文本語料時,基于校正后的實體識別模型對新的文本語料中的實體進行識別。本公開技術方案可以大幅提高實體識別的準確率。
技術領域
本公開涉及計算機技術領域,特別涉及實體識別方法及裝置、電子設備和計算機可讀存儲介質。
背景技術
隨著互聯網的發展,各個領域中每天都會產生大量不同形式的互聯網數據,如何準確、高效地挖掘出互聯網數據中的重要信息,以提升該領域中的服務效率是一個關鍵問題。進一步的,在信息挖掘中,實體關系提取是其中一項核心任務。目前,常用的實體關系抽取方法包括基于規則的實體關系抽取方法、基于機器學習的實體關系抽取方法。
其中,基于規則的實體關系抽取方法重點在于規則的制定,而規則的制定強依賴于人為經驗,這就導致在人為經驗不足時,無法制定出合理有效的規則,進而導致基于規則所抽取到的實體不夠全面,不夠準確;基于機器學習的實體關系抽取方法的準確性和召回率對標注語料的依賴性很高,且需要較強的人工干預,而語料標注耗時耗力,這就導致基于機器學習的實體關系抽取方法的整體開發周期很長,且需要耗費較高的人力物力,時效性和泛化能力差。
發明內容
本公開的目的在于提供實體識別方法及裝置、電子設備和計算機可讀存儲介質,提高了實體識別的召回率和準確率。
本公開的其他特性和優點將通過下面的詳細描述變得顯然,或部分地通過本公開的實踐而習得。
根據本公開的第一方面,提供實體識別方法,包括:
基于預設文本語料,構建實體字典,所述實體字典包括第一實體字典和第二實體字典;
根據所述第一實體字典和第二實體字典訓練實體識別模型,基于訓練文本語料通過預設算法對所述實體識別模型進行校正;
在接收到新的文本語料時,基于校正后的實體識別模型對所述新的文本語料中的實體進行識別。
在本公開的示例性實施例中,所述根據所述第一實體字典和第二實體字典訓練實體識別模型,基于訓練文本語料,通過預設算法對所述實體識別模型進行校正,包括:
查詢所述訓練文本語料中是否有與所述第一實體字典中的實體或第二實體字典中的實體相匹配的待確定實體;
對所述訓練文本語料中待確定實體打實體內鏈;
若所述待確定實體為出現在所述第一實體字典中的實體,則不對所述實體識別模型進行校正;
若所述待確定實體為出現在所述第二實體字典中的實體且所述待確定實體已打實體內鏈,則基于語義窗口對所述待確定實體所在的文本語料進行分段;
判斷每一分段中的待確定實體是否預測為實體,若每一分段中的待確定實體均未預測為實體,則將所述待確定實體的實體內鏈刪除。
在本公開的示例性實施例中,在將所述待確定實體的實體內鏈刪除后,所述方法還包括:
將刪除實體內鏈后的待確定實體所在的文本語料作為負文本語料,將預測為實體所在的語料作為正文本語料;
提取同一實體的正文本語料、負文本語料、正文本語料的關鍵詞以及負文本語料關鍵詞;
若刪除后的待確定實體所在的文本語料中包含正文本語料的關鍵詞,且不包含負文本預料的關鍵詞,則將所述待確定實體所在的文本語料作為正文本語料;
若刪除后的待確定實體所在的文本語料中包含負文本語料的關鍵詞,則將所述待確定實體所在的文本語料作為負文本語料。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京金堤征信服務有限公司,未經北京金堤征信服務有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110282485.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:道岔組件
- 下一篇:一種工程全過程造價控制分析方法





