[發明專利]一種大規模知識圖譜路徑查詢預測器構造方法有效
| 申請號: | 201611025159.4 | 申請日: | 2016-11-18 |
| 公開(公告)號: | CN106776729B | 公開(公告)日: | 2020-08-14 |
| 發明(設計)人: | 黃震華;程久軍 | 申請(專利權)人: | 同濟大學 |
| 主分類號: | G06F16/28 | 分類號: | G06F16/28;G06F16/2458 |
| 代理公司: | 上??坡蓪@硎聞账?特殊普通合伙) 31290 | 代理人: | 葉鳳 |
| 地址: | 200092 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 大規模 知識 圖譜 路徑 查詢 預測 構造 方法 | ||
本發明涉及一種大規模知識圖譜路徑查詢預測器的構造方法,包括以下3個模塊:1)路徑查詢置信度建模;2)路徑查詢訓練樣本集生成;3)路徑查詢預測器構建。路徑查詢置信度建模模塊實現對大規模知識圖譜中路徑查詢的表示、編碼以及置信度表示;路徑查詢訓練樣本集生成模塊針對不同路徑長度,產生正訓練樣本集及其負訓練樣本集;而路徑查詢預測器構建模塊基于模塊1)和2)實現預測目標函數的構建和隨機優化。與現有技術相比,本發明具有顯著提高路徑查詢預測的準確度、降低級聯誤差以及增強泛化能力等優點。
技術領域
本發明涉及一種大規模知識圖譜路徑查詢預測器的構造技術,屬于計算機應用和模式識別技術的交叉領域。
背景技術
近些來,隨著物聯網、云計算和社交網絡等技術的迅猛發展,網絡空間中的大數據,即網絡大數據,越發顯現4“V”(Volume:數據體量巨大、Velocity:數據更新快、Variety:數據類型繁多、Value:價值密度低)特性。網絡大數據,特別是來源于社交網絡平臺的大數據,蘊含著豐富的社會信息,其中包含著大量重要社會事件線索信息的網絡映射,而這些網絡映射信息通常看似雜亂無章的。目前,學術界和工業界(如Google、facebook、百度、搜狐等)大都利用知識圖譜來組織網絡大數據,并利用其強大的知識推理能力來實現網絡大數據的深度分析和挖掘,進而快速精準地發現其中所暗含的隱性線索與規律。
知識圖譜旨在描述和刻畫真實世界中存在的各種實體(entity)以及實體間的關系(relation),通常用有向圖來組織和表示。圖中的節點表示實體,而圖中的邊則由關系構成,關系用來連接兩個實體,刻畫它們之間的關聯。通常,我們用G(E,R)來表示知識圖譜,其中E={ei}為所有實體組成的集合,R={rei,ej}為實體間關系的集合,rei,ej表示實體ei到ej的關系。不難看出,在多數情況下,rei,ej≠rej,ei。與現有的研究工作類似,我們將知識圖譜G用資源描述框架RDF(Resource Description Framework)三元組的集合來表示,即G(E,R)={ei,r,ej}。目前比較主流的知識圖譜包括Freebase、YAGO、Dbpedia、Internet Movie Database等。
路徑查詢是深度分析和挖掘知識圖譜,進而發現知識圖譜隱含線索與規律的重要手段,目前成為知識圖譜理論及技術領域的一個研究熱點和重點。給定一個實體es,以及一條長度為l且以es為起始實體的路徑p=r1,r2,…,rl,其中ri(1≤i≤l)為相鄰的關系(有向邊),路徑查詢Q[es,p]就是獲取從實體es出發,經過路徑p所能到達的所有實體A(es,p)={e1,e2,…,em}。由于大數據時代,導致了其上所構建的知識圖譜的規模也是龐大的,因此,路徑查詢的時間代價非常巨大。為此,學術界和工業界提出了通過機器學習的方式來高效實現大規模知識圖譜的路徑查詢。該類技術的核心思路是構造一個路徑查詢預測器,并通過一定規模數據樣本進行預測器的訓練,一直到預測誤差用戶可以接受為止。目前,國內外有一些知名的實驗室團隊在做這類的研究工作并取得了較好的應用成果,例如斯坦福大學的Andrew Y.Ng團隊和Kelvin Guu團隊、曼切斯特大學Rajarshi Das團隊、微軟研究院的Z.Wang團隊、加州大學圣巴巴拉分校的Arijit Khan團隊、中國人民大學的X.Zhang團隊以及同濟大學的Y.Xiang團隊。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于同濟大學,未經同濟大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611025159.4/2.html,轉載請聲明來源鉆瓜專利網。





