[發明專利]實體檢索方法、存儲介質和電子設備有效
| 申請號: | 201910017986.6 | 申請日: | 2019-01-09 |
| 公開(公告)號: | CN109902156B | 公開(公告)日: | 2021-12-24 |
| 發明(設計)人: | 黃華 | 申請(專利權)人: | 千城數智(北京)網絡科技有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/36;G06F16/951;G06F16/953;G06F16/9535 |
| 代理公司: | 北京睿派知識產權代理事務所(普通合伙) 11597 | 代理人: | 劉鋒 |
| 地址: | 100024 北京市朝陽區三間房*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 實體 檢索 方法 存儲 介質 電子設備 | ||
公開了一種實體檢索方法、存儲介質和電子設備。本發明實施例通過獲取檢索詞對應的第一詞向量,并遍歷第二詞向量集合和第三詞向量集合,確定與所述第一詞向量相似的多個第二詞向量和第三詞向量,其中,所述第二詞向量集合包括預定的知識圖譜中實體對應的詞向量,所述第三詞向量集合包括所述知識圖譜中實體屬性對應的詞向量,從而根據所述第一詞向量和預定的匹配模型獲取所述相似的多個第二詞向量和第三詞向量的排序結果,進而根據所述排序結果確定所述檢索詞對應的實體。由此,可以提升信息檢索的準確性。
技術領域
本發明涉及信息處理技術領域,具體涉及一種實體檢索方法、存儲介質和電子設備。
背景技術
隨著互聯網技術的不斷發展,通過網頁查找信息已成為人們獲取信息最常用的方式。目前,基于知識圖譜的信息檢索引擎得到了大力發展和普及,例如谷歌、百度等,均是基于知識圖譜來對信息進行檢索的。將知識圖譜與信息檢索進行結合能夠快速獲取更多的信息,是一種較高效的信息檢索方法。
現有技術通常通過采用將檢索詞與知識圖譜中的實體及實體屬性進行關鍵詞匹配來獲取需要查詢的信息,但由于知識圖譜中的實體和實體屬性的數量較大,且實體和實體屬性的概念會隨著時間的發展產生變化,基于關鍵詞匹配的信息檢索方法準確性會逐漸降低。
發明內容
有鑒于此,本發明實施例提出一種實體檢索方法、存儲介質和電子設備,可以在不影響檢索時間的情況下提升信息檢索的準確性。
根據本發明實施例的第一方面,提供一種實體檢索方法,所述方法包括:
獲取檢索詞對應的第一詞向量;
遍歷第二詞向量集合和第三詞向量集合,確定與所述第一詞向量相似的多個第二詞向量和第三詞向量,其中,所述第二詞向量集合包括預定的知識圖譜中實體對應的詞向量,所述第三詞向量集合包括所述知識圖譜中實體屬性對應的詞向量;
根據所述第一詞向量和預定的匹配模型獲取所述相似的多個第二詞向量和第三詞向量的排序結果;以及
根據所述排序結果確定所述檢索詞對應的實體。
優選地,所述第一詞向量、所述第二詞向量和所述第三詞向量通過詞向量生成模型獲得。
優選地,所述第二詞向量集合還包括與所述實體相關聯的行業熱詞對應的詞向量。
優選地,所述詞向量生成模型根據樣本預先訓練獲得,所述樣本包括樣本詞和對應的樣本詞向量。
優選地,確定與所述第一詞向量相似的多個第二詞向量和第三詞向量包括:
分別計算所述第一詞向量與每個所述第二詞向量及每個所述第三詞向量的相似度;
選取所述相似度滿足預定條件的多個所述第二詞向量和所述第三詞向量作為所述相似的多個第二詞向量和第三詞向量。
優選地,根據所述第一詞向量和預定的匹配模型獲取所述相似的多個第二詞向量和第三詞向量的排序結果包括:
根據所述第一詞向量和所述預定的匹配模型獲取所述第一詞向量與所述相似的多個第二詞向量和第三詞向量的匹配概率;
按所述匹配概率對對應的所述相似的多個第二詞向量和第三詞向量進行排序,將排序后的匹配概率作為所述排序結果。
優選地,所述預定的匹配模型根據樣本集合預先訓練獲得,所述樣本集合中的每個樣本包括一個所述第二詞向量和一個隨機選擇的所述第三詞向量及對應的匹配結果,所述匹配結果用于表征所述訓練樣本中的實體和實體屬性是否匹配。
根據本發明實施例的第二方面,提供一種計算機可讀存儲介質,其上存儲計算機程序指令,其中,所述計算機程序指令在被處理器執行時實現如第一方面所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于千城數智(北京)網絡科技有限公司,未經千城數智(北京)網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910017986.6/2.html,轉載請聲明來源鉆瓜專利網。





