[發明專利]實體識別模型生成方法及裝置、實體提取方法及裝置在審
| 申請號: | 202110208364.9 | 申請日: | 2021-02-25 |
| 公開(公告)號: | CN113010638A | 公開(公告)日: | 2021-06-22 |
| 發明(設計)人: | 李凱;周晗 | 申請(專利權)人: | 北京金堤征信服務有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F40/295;G06N3/02;G06N3/08 |
| 代理公司: | 北京思源智匯知識產權代理有限公司 11657 | 代理人: | 毛麗琴 |
| 地址: | 100086 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 實體 識別 模型 生成 方法 裝置 提取 | ||
本公開的實施例提供了實體識別模型生成方法及裝置、實體提取方法及裝置、計算機可讀存儲介質、電子設備和計算機程序。該方法包括:獲取第一樣本語句集;基于第一樣本語句集中的樣本語句和對應的實體標注信息,訓練初始目標類型實體識別模型,得到目標類型實體識別模型;獲取第二樣本語句集;基于第二樣本語句集中的正樣本語句和對應的正樣本標注信息,以及負樣本語句和對應的負樣本標注信息,訓練初始實體分類模型,得到實體分類模型。本公開技術方案可以實現對目標類型實體的自動提取,并且可以準確而全面地得到文本中的目標類型實體及目標類型實體的類別。
技術領域
本公開涉及計算機技術領域,特別涉及實體識別模型生成方法及裝置、實體提取方法及裝置、電子設備、計算機可讀存儲介質和計算機程序。
背景技術
命名實體識別(Named Entity Recognition,NER)是指從文本中識別出特定對象事務名稱或者符號的過程。命名實體識別技術是信息抽取、信息檢索、機器翻譯、問答系統等多種自然語言處理任務中必不可少的組成部分。
目前在很多領域,需要從已有的文本中提取特定類型的實體,為用戶提供各種服務。例如,解析招投標網站的公示信息,可以為企業和用戶提供有價值的信息。招投標領域信息復雜,目前廣泛采用的抽取方法是通過構建相應的正則表達式模版實現信息抽取。還有些自動化抽取技術如基于網頁結構特征的網頁信息抽取技術、基于包裝器歸納方式的網頁信息抽取技術等。
發明內容
本公開的目的在于提供一種實體識別模型生成方法及裝置、實體提取方法及裝置、電子設備、計算機可讀存儲介質和計算機程序,進而至少在一定程度上解決上述背景技術中描述的技術問題。
本公開的其他特性和優點將通過下面的詳細描述變得顯然,或部分地通過本公開的實踐而習得。
根據本公開的第一方面,提供實體識別模型生成方法,包括:獲取第一樣本語句集,其中,第一樣本語句集中的樣本語句包括目標類型實體,且具有對應的表征目標類型實體的實體標注信息;基于第一樣本語句集中的樣本語句和對應的實體標注信息,訓練初始目標類型實體識別模型,得到目標類型實體識別模型;獲取第二樣本語句集,其中,第二樣本語句集包括正樣本語句和負樣本語句,正樣本語句包括預設類別的目標類型實體,且具有對應的正樣本標注信息,負樣本語句包括非預設類別的目標類型實體,且具有對應的負樣本標注信息;基于第二樣本語句集中的正樣本語句和對應的正樣本標注信息,以及負樣本語句和對應的負樣本標注信息,訓練初始實體分類模型,得到實體分類模型。
在本公開的示例性實施例中,獲取第一樣本語句集,包括:從預設樣本文本中提取第一樣本語句集,并從第一樣本語句集包括的樣本語句中確定目標類型實體;基于目標類型實體在樣本語句中的位置,生成樣本語句子集包括的樣本語句對應的實體標注信息。
在本公開的示例性實施例中,獲取第二樣本語句集,包括:從預設樣本文本中提取初始樣本語句集;從初始樣本語句集中確定包括預設類別的目標類型實體的樣本語句,以及確定包括非預設類別的目標類型實體的樣本語句;將預設類別的目標類型實體所在的樣本語句和預設類別的目標類型實體組成的語句對確定為正樣本語句,并生成表征預設類別的目標類型實體的正樣本標注信息;將非預設類別的目標類型實體所在的樣本語句和非預設類別的目標類型實體組成的語句對確定為負樣本語句,并生成表征非預設類別的目標類型實體的負樣本標注信息。
在本公開的示例性實施例中,確定包括非預設類別的目標類型實體的樣本語句,包括:利用目標類型實體識別模型,從初始樣本語句集中的樣本語句中確定目標類型實體;將確定出的各個目標類型實體與預設類別的目標類型實體進行比對,得到非預設類型的目標類型實體;將非預設類型的目標類型實體所在的樣本語句確定為包括非預設類別的目標類型實體的樣本語句。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京金堤征信服務有限公司,未經北京金堤征信服務有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110208364.9/2.html,轉載請聲明來源鉆瓜專利網。





