[發明專利]一種實體抽取方法、裝置、設備和介質在審
| 申請號: | 202310091753.7 | 申請日: | 2023-01-14 |
| 公開(公告)號: | CN115994538A | 公開(公告)日: | 2023-04-21 |
| 發明(設計)人: | 鄭楚彬;賈現永;胡江;蔡子哲;楊振東;蔡靜 | 申請(專利權)人: | 企知道網絡技術有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/289;G06F40/242;G06F18/22;G06F16/9535 |
| 代理公司: | 武漢維興專利代理有限公司 42298 | 代理人: | 肖照旭 |
| 地址: | 518000 廣東省深圳市南山區西麗*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 實體 抽取 方法 裝置 設備 介質 | ||
本申請涉及一種實體抽取方法、裝置、設備和介質,涉及數據處理領域;方法包括獲取多個資訊內容;根據每一資訊內容,確定與每一資訊內容對應的所有實體類型各自對應的若干候選實體;針對每一實體類型,將對應的每一候選實體與知識庫中的每一實體進行匹配,確定匹配值,并根據所有候選實體對應的匹配值,從所有候選實體中確定目標實體;利用每一資訊內容對應的若干目標實體,對每一資訊內容進行標注,得到每一資訊內容對應的訓練樣本。本申請能在針對每一資訊內容進行實體的初步識別,以得到對應的若干候選實體,再通過知識庫中的實體與若干候選實體進行匹配,以確定相應的目標實體,提高了實體的標注效率和準確度。
技術領域
本申請涉及數據處理的技術領域,尤其是涉及一種實體抽取方法、裝置、設備和介質。
背景技術
基于畫像進行資訊信息流推薦是推薦系統中常規且重要的推薦方式,豐富內容畫像是實現個性化內容推薦的基礎,其中,資訊內容的命名實體是內容畫像的一個重要維度,因此,更準確識別內容中的實體更加重要。
一般的,采用實體識別模型進行資訊內容的實體識別,而訓練實體識別模型需要大量的訓練數據。常規的訓練數據是人工對資訊內容進行實體確定的,但是可能存在實體命名不準確、效率低的問題。
發明內容
為了實現提高實體命名的效率及準確度,本申請提供一種實體抽取方法、裝置、設備和介質。
第一方面,本申請提供一種實體抽取方法,采用如下的技術方案:
一種實體抽取方法,包括:
獲取多個資訊內容;
根據每一資訊內容,確定與每一資訊內容對應的所有實體類型各自對應的若干候選實體;
針對每一實體類型,將對應的每一候選實體與知識庫中的每一實體進行匹配,確定匹配值,并根據所有候選實體對應的匹配值,從所有候選實體中確定目標實體;
利用每一資訊內容對應的若干目標實體,對每一資訊內容進行標注,得到每一資訊內容對應的訓練樣本,每一訓練樣本包括:資訊內容和資訊內容對應的若干目標實體的標注信息。
通過采用上述技術方案,獲取大量的資訊內容后,針對每一資訊內容進行實體的初步識別,以得到對應的若干候選實體,再通過知識庫中的實體與若干候選實體進行匹配,以確定相應的目標實體,實現實體的二次篩選,并對資訊內容進行標注,得到訓練樣本,提高了實體的標注效率和準確度。
本申請在一較佳示例中可以進一步配置為:所述獲取多個資訊內容之前,還包括:
獲取多個初始資訊內容;
對多個初始資訊內容進行預處理,得到多個資訊內容;
其中,預處理方式包括以下任一種或者多種:
根據知識庫以及多個初始資訊內容進行去重處理、html標簽去除、特殊字符剔除、繁簡轉換和大小寫轉換。
通過采用上述技術方案,在隨機抽取到一定規模的初始資訊內容后進行初步的清洗,具體的,對多個初始資訊內容進行根據知識庫以及多個初始資訊內容進行去重處理、html標簽去除、特殊字符剔除、繁簡轉換和大小寫轉換中的一項或者多項,以實現初始資訊內容的清洗,提高資訊內容的質量。
本申請在一較佳示例中可以進一步配置為:所述根據每一資訊內容,確定與每一資訊內容對應的所有實體類型各自對應的若干候選實體,包括:
根據每一資訊內容進行分詞處理,得到多個文本塊;
針對每一文本塊通過預設特征詞,確定每一文本塊對應的所有實體類型各自對應的若干第一候選實體;
根據通過實體詞典侯建的前綴樹對每一資訊內容進行匹配計算,確定每一資訊內容對應的所有實體類型各自對應的若干第二候選實體,其中,匹配計算的方式包括:前向最大匹配、逆向最大匹配或雙向最大匹配,所述實體詞典是基于知識庫構建得到的;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于企知道網絡技術有限公司,未經企知道網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310091753.7/2.html,轉載請聲明來源鉆瓜專利網。





