[發明專利]基于謂語類型預測關聯的數字信息驅動的系統和方法在審
| 申請號: | 202011408237.5 | 申請日: | 2020-12-04 |
| 公開(公告)號: | CN112925857A | 公開(公告)日: | 2021-06-08 |
| 發明(設計)人: | Q·尤爾艾因;M·扎亞茨;P·莫羅;F·布倫南;S·派;L·克斯塔貝爾羅;S·戈爾曼 | 申請(專利權)人: | 埃森哲環球解決方案有限公司 |
| 主分類號: | G06F16/28 | 分類號: | G06F16/28;G16H50/70 |
| 代理公司: | 北京市金杜律師事務所 11256 | 代理人: | 馬明月 |
| 地址: | 愛爾蘭*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 謂語 類型 預測 關聯 數字 信息 驅動 系統 方法 | ||
本公開的實施例涉及基于謂語類型預測關聯的數字信息驅動的系統和方法。本公開描述了經由神經網絡預測知識圖中的謂語元數據參數的方法和系統。方法包括:接收基于知識庫的知識圖,知識庫包括基于圖的數據集。知識圖包括兩個節點之間的謂語和謂語元數據集合。方法還包括:確定正結構得分;基于每個對應顯著性參數來調整每個正結構得分;生成基于合成負圖的數據集;針對基于合成負圖的數據集中的每個合成負三元組確定負結構得分;基于每個對應顯著性參數來調整每個負結構得分;基于調整后的正結構得分和調整后的負結構得分來確定顯著性損失值;以及基于顯著性損失值來確定知識圖中的第三節點與第四節點之間的鏈接的似然得分。
本申請要求于2019年12月6日提交的美國臨時專利申請第62/944,769號和于2019年12月30日提交的美國臨時專利申請第62/954,901號的權益,上述申請的全部內容通過引用并入本文。
技術領域
本公開一般涉及知識圖領域,并且具體地涉及利用神經網絡來預測針對用于生成知識圖的基于圖的數據集的謂語元數據參數的方法和系統。
背景技術
用于機器學習、模型化數據和圖嵌入的基本技術和設備在本領域中是已知的。雖然企業系統可以訪問與人類遺傳組成、遺傳突變信息、基因表達信息、藥物相互作用、分子結構和疾病分類相關的大量信息,但是現有分析應用和數據倉庫系統尚無法完全利用這種信息。通常,僅將信息簡單地聚合到大型數據倉庫中,而不進行適當的數據質量篩選且不包括連接信息的關系數據的附加層。不具有上下文信息或關系信息的大量數據的這種聚合是無用的數據轉儲。
以信息的原始格式存儲在數據倉庫中的信息通常需要大量計算資源來將信息變換為可搜索的數據,以便在無上下文的情況下使用串匹配機制(語義鏈接)來對查詢做出響應。這種常規途徑在標識和返回所查詢的數據的能力方面受到限制,并且大多數所存儲的數據不容易被配置為用于機器學習分析,以提供企業中的知識和數據的完整畫面。期望多關系鏈接預測來更高效地且有效地標識基因-疾病關聯性的謂語。
發明內容
本公開描述了一種用于預測知識圖中的節點到節點鏈接的系統。該系統包括用于存儲可執行指令的存儲器和適用于訪問存儲器的處理器。處理器還適用于執行被存儲在存儲器中的可執行指令,以接收基于知識庫的知識圖,該知識圖包括第一節點與第二節點之間的鏈接,第一節點和第二節點表示相關聯賓語,知識庫包括被存儲在存儲器中的基于圖的數據集,該基于圖的數據集將第一節點與第二節點相關聯,知識庫的基于圖的數據集包括被指派給謂語元數據集合,該謂語元數據集合知識圖中的每個三元組,知識庫的基于圖的數據集包括被指派給知識圖中的每個三元組的顯著性參數。處理器還適用于執行被存儲在存儲器中的可執行指令以針對知識圖中的每個三元組確定正結構得分;基于每個對應顯著性參數來調整每個正結構得分;根據基于圖的數據集來生成基于合成負圖的數據集,該基于合成負圖的數據集包括合成負三元組集合;以及針對基于合成負圖的數據集中的每個合成負三元組確定負結構得分。處理器還適用于執行被存儲在存儲器中的可執行指令以基于每個對應顯著性參數來調整每個負結構得分;基于調整后的正結構得分和調整后的負結構得分來確定顯著性損失值;以及基于顯著性損失值來確定知識圖中的第三節點與第四節點之間的鏈接的似然得分。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于埃森哲環球解決方案有限公司,未經埃森哲環球解決方案有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011408237.5/2.html,轉載請聲明來源鉆瓜專利網。





