[發明專利]一種知識圖譜嵌入模型的訓練方法、系統和電子設備有效
| 申請號: | 202011040457.7 | 申請日: | 2020-09-28 |
| 公開(公告)號: | CN112182245B | 公開(公告)日: | 2022-11-29 |
| 發明(設計)人: | 黃慶明;曹宗勝;許倩倩;楊智勇;操曉春 | 申請(專利權)人: | 中國科學院計算技術研究所 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36 |
| 代理公司: | 北京泛華偉業知識產權代理有限公司 11280 | 代理人: | 王勇 |
| 地址: | 100190 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 知識 圖譜 嵌入 模型 訓練 方法 系統 電子設備 | ||
本發明實施例提供了一種知識圖譜嵌入模型的訓練方法、系統和電子設備,訓練方法包括:A1、用對偶四元數構建知識圖譜嵌入模型的嵌入空間,通過對偶四元數將知識圖譜中的關系建模為嵌入空間中的旋轉和平移;A2、從預設知識圖譜中的正樣本中進行負采樣以生成負樣本;A3、對正樣本和負樣本進行初始化,得到包含以初始嵌入向量表示的正樣本和負樣本的訓練集;A4、利用所述訓練集對所述知識圖譜嵌入模型進行迭代訓練至收斂。本發明構造的新模型可以同時兼具旋轉的性能和平移的性能,使得訓練得到的知識圖譜嵌入模型的嵌入性能得到提升,輸出的實體嵌入或者關系嵌入能夠更準確地表達預設知識圖譜中的實體或者關系。
技術領域
本發明涉及人工智能領域,具體來說涉及知識圖譜嵌入技術領域,更具體地說,涉及一種知識圖譜嵌入模型的訓練方法、系統和電子設備。
背景技術
知識圖譜(Knowledge Graph,簡稱KG)代表實體的相互鏈接描述的集合,即真實世界的對象、事件、情況或抽象概念。在過去的十年中,知識圖譜已被證明是從問題解答、知識推斷到自然語言處理等廣泛應用的必不可少的組成部分。為了有效地將知識圖譜集成到下游人工智能(Artificial Intelligence,簡稱AI)應用程序中,其中的關鍵步驟是進行知識圖譜嵌入(Knowledge Graph Embedding,簡稱KGE),知識圖譜嵌入的目的是將知識圖譜中的實體和關系編碼為低維表示形式。
知識圖譜嵌入在以下方面有重要作用:
第一、反欺詐方面,知識圖譜在反欺詐方面的作用非常大,反欺詐最終目的是識別壞人,把壞人跟其他未知人群的關系找出來,從而認定其他未知人群是否是壞人。先前的普通技術如人為推斷等,只能推斷一層網絡的關系和結構,現在的知識圖譜技術則是可以搜索和預測多層的結構和關系,因此效果得到了大大的提升。尋找犯罪嫌疑團伙、不法中介的過程實際上就是要看很大規模的一張網,看很多層關系,關系之間還有強關系、弱關系等。
第二、智能搜索方面,智能搜索的功能類似于知識圖譜在谷歌(Google)、百度上的應用。也就是說,對于每一個搜索的關鍵詞,我們可以通過知識圖譜來返回更豐富,更全面的信息。
第三、推薦引擎方面,推薦引擎通過知識圖譜,查詢某節點的消費情況可為其推薦關聯度高的可能消費的商品。
第四、精準營銷方面,一個聰明的企業可以比它的競爭對手以更為有效的方式去挖掘其潛在的客戶。在互聯網時代,營銷手段多種多樣,但不管有多少種方式,都離不開一個核心,即分析和理解用戶。知識圖譜可以結合多種數據源去分析實體之間的關系,從而對用戶的行為有更好的理解。比如一個公司的市場經理用知識圖譜來分析用戶之間的關系,去發現一個組織的共同喜好,從而可以有針對性的對某一類人群制定營銷策略。
從發展歷史看,大多數知識圖譜嵌入方法根據它們處理關系的方式大致分為兩個分支。第一個分支,在本文中稱為平移家族(Translation家族),包括TransE模型[1]及其變體。這些方法的共同特點是它們都將關系建模為嵌入空間中頭節點到尾節點之間的平移變換。TransE模型是第一個基于“頭節點+關系節點=尾節點”原理實現這一假設的模型。然后,TransH模型,TransR模型,TransD模型和TransA模型通過不同的投影策略改進了這種想法。TransG模型、KG2E模型通過分別考慮貝葉斯非參數高斯混合模型和高斯分布協方差,進一步將概率論原理注入該框架。TranSparse模型為傳輸矩陣提供自適應稀疏性,以尋找知識圖譜的異質性和不平衡問題的解決方案。此外,最近一項名為TorusE的工作采用了李群方法從而避免將嵌入空間強制在球面上。總而言之,與以往的復雜模型相比,TransE家族的模型提供了一種簡單而有效的方法來獲得更好的結果。但遺憾的是,它們無法完全捕獲知識圖譜中關系的所有四個基本模式,即對稱、反對稱、反演和組成模式。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所,未經中國科學院計算技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011040457.7/2.html,轉載請聲明來源鉆瓜專利網。





