[發明專利]新實體挖掘方法、裝置、計算機設備及存儲介質在審
| 申請號: | 201910348868.3 | 申請日: | 2019-04-28 |
| 公開(公告)號: | CN110162640A | 公開(公告)日: | 2019-08-23 |
| 發明(設計)人: | 張強;張揚;馮知凡;任可欣 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/951;G06F17/27 |
| 代理公司: | 北京鴻德海業知識產權代理事務所(普通合伙) 11412 | 代理人: | 田宏賓 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 目標文本 新實體 計算機設備 存儲介質 描述信息 圖譜 獲取目標 結果確定 實體識別 挖掘 文本 覆蓋率 應用 | ||
本發明公開了新實體挖掘方法、裝置、計算機設備及存儲介質,其中方法可包括:獲取目標文本,對目標文本進行實體描述信息識別;若根據識別結果確定出目標文本中包含對于實體的描述信息,則對目標文本進行實體識別;將識別出的實體中的新實體收錄到知識圖譜中。應用本發明所述方案,可提升知識圖譜的實體收錄覆蓋率等。
【技術領域】
本發明涉及知識圖譜技術,特別涉及新實體挖掘方法、裝置、計算機設備及存儲介質。
【背景技術】
知識圖譜旨在描述真實世界中存在的各種實體或概念及其關系,其構成一張巨大的語義網絡圖。知識圖譜支撐了很多行業中的具體應用,如信息檢索、自然語言理解、問答系統、推薦系統、電子商務、金融風控等。
傳統的知識圖譜收錄主要借助于百科類網站及垂類網站的結構化數據源,相應地,對于新實體的發現和收錄主要依賴于百科類網站及垂站網站的數據源的網頁的更新。
但互聯網上經常會出現一些新的人物、歌曲、小說等實體,這些實體在互聯網上快速躥紅,而上述數據源網頁的更新往往需要數天甚至數周時間,從而造成新實體不能被及時收錄到知識圖譜中,進而降低了知識圖譜的實體收錄覆蓋率等。
【發明內容】
有鑒于此,本發明提供了新實體挖掘方法、裝置、計算機設備及存儲介質。
具體技術方案如下:
一種新實體挖掘方法,包括:
獲取目標文本,對所述目標文本進行實體描述信息識別;
若根據識別結果確定所述目標文本中包含對于實體的描述信息,則對所述目標文本進行實體識別;
將識別出的實體中的新實體收錄到知識圖譜中。
根據本發明一優選實施例,所述獲取目標文本包括:
從目標網站上抓取非結構化數據網頁;
將抓取到的網頁中的內容作為所述目標文本。
根據本發明一優選實施例,所述對所述目標文本進行實體描述信息識別包括:
利用預定規則對所述目標文本進行實體描述信息識別,確定出所述目標文本中是否包含對于實體的描述信息;
或者,利用預先訓練得到的信息識別模型識別出所述目標文本中是否包含對于實體的描述信息。
根據本發明一優選實施例,所述對所述目標文本進行實體識別包括:利用預先訓練得到的實體識別模型識別出所述目標文本中的實體。
根據本發明一優選實施例,所述將識別出的實體中的新實體收錄到知識圖譜中包括:
從識別出的實體中確定出至少一個主實體;
針對每個主實體,分別確定所述主實體是否為新實體,若是,則將所述主實體收錄到知識圖譜中。
根據本發明一優選實施例,所述從識別出的實體中確定出至少一個主實體包括:
針對識別出的每個實體,分別利用預先訓練得到的主實體識別模型確定出所述實體是否為主實體;
或者,針對識別出的每個實體,分別利用預定規則確定出所述實體是否為主實體。
根據本發明一優選實施例,所述分別確定所述主實體是否為新實體包括:
獲取所述主實體的屬性信息;
根據所述主實體的屬性信息對所述主實體進行消歧與關聯,確定出所述主實體是否為新實體。
根據本發明一優選實施例,所述獲取所述主實體的屬性信息包括:從所述目標文本中記載的所述主實體的描述信息中抽取出所述主實體的屬性信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910348868.3/2.html,轉載請聲明來源鉆瓜專利網。





