[發明專利]基于多種存儲介質的知識圖譜檢索方法及系統在審
| 申請號: | 201811636233.5 | 申請日: | 2018-12-29 |
| 公開(公告)號: | CN109783599A | 公開(公告)日: | 2019-05-21 |
| 發明(設計)人: | 徐汕;梁炬;黃文鋒;張晶亮;單酉;楊端;衛未 | 申請(專利權)人: | 北京航天云路有限公司 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/33;G06F16/36;G06F16/34 |
| 代理公司: | 北京紐樂康知識產權代理事務所(普通合伙) 11210 | 代理人: | 白明珠 |
| 地址: | 100039 北京市海淀區西*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 存儲介質 圖譜檢索 關聯 分布式數據存儲系統 全文搜索引擎 數據庫檢索 檢索結構 檢索結果 用戶提供 全局 檢索 查詢 訪問 | ||
本發明公開了一種基于多種存儲介質的知識圖譜檢索方法及系統,利用全文搜索引擎訪問全局ID;將所述全局ID利用圖數據庫檢索相互關聯的實體,查詢所有關聯ID;所述關聯ID利用分布式數據存儲系統檢索結構化數據。本發明有益效果:大幅提升檢索結果的廣度和深度,為用戶提供更加精準快捷的檢索體驗。
技術領域
本發明涉及信息檢索技術領域,具體來說,涉及一種基于多種存儲介質的知識圖譜檢索方法及系統。
背景技術
隨著互聯網的發展,網絡數據內容呈現爆炸式增長的態勢。互聯網內容的大規模、異質多元、組織結構松散的特點,給人們有效獲取信息和知識提出了挑戰。
全文檢索是目前廣泛應用的主流檢索技術。通過掃描文章中的每一個詞,對每一個詞建立一個索引,指明該詞出現的次數和位置,當用戶查詢時,檢索程序就根據事先建立的索引進行查找,并將查找的結果反饋給用戶。
全文檢索的方法主要分為按字檢索和按詞檢索兩種:一種是按字檢索是對文章中的每一個字建立索引,檢索時將詞分解為字的組合。對于各種不同的語言而言,字有不同的含義,比如英文中字與詞實際上是合一的,而中文中字與詞有很大分別。另一種是按詞檢索是對文章中的詞,即語義單位建立索引,檢索時按詞檢索,并且可以處理同義項等。英文等西方文字由于按照空白切分詞,因此實現上與按字處理類似,添加同義處理也很容易。中文等東方文字則需要切分字詞,以達到按詞索引的目的。
知識圖譜(Knowledge Graph),顯示知識發展進程與結構關系的一系列各種不同的圖形,用可視化技術描述知識資源及其載體,挖掘、分析、構建、繪制和顯示知識及它們之間的相互聯系。知識圖譜以其強大的語義處理能力和開放組織能力,為數據信息的精準快速檢索提供技術基礎。
針對相關技術中的問題,目前尚未提出有效的解決方案。
發明內容
針對相關技術中的上述技術問題,本發明提出一種基于多種存儲介質的知識圖譜檢索方法及系統,能夠傳統檢索方法中返回的結果只包含關鍵字內容。
為實現上述技術目的,本發明的技術方案是這樣實現的:
一種基于多種存儲介質的知識圖譜檢索方法,包括以下步驟:
利用全文搜索引擎訪問全局ID;
將所述全局ID利用圖數據庫檢索相互關聯的實體,查詢所有關聯ID;
所述關聯ID利用分布式數據存儲系統檢索結構化數據。
進一步地,所述利用全文搜索引擎訪問唯一全局ID包括:
索引文件通過語言處理生成系列詞;
將所述系列詞通過創建索引生成反向索引表;
通過索引存儲將所述反向索引表輸入存儲裝置。
進一步地,所述利用全文搜索引擎訪問唯一全局ID還包括:
分析查詢語句生成系列詞;
分析所述系列詞生成查詢樹;
通過索引存儲將索引讀入存儲裝置;
利用所述查詢樹搜索所述索引生成文檔鏈表,對所述文檔鏈表進行交差。
進一步地,所述將全局ID利用圖數據庫檢索相互關聯的實體,查詢所有關聯ID包括:
生成數據的圖結構模型;
將索引通過屬性值查找節點或關系;
結合查詢語句進行深度檢索。
進一步地,所述關聯ID利用分布式數據存儲系統檢索結構化數據包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航天云路有限公司,未經北京航天云路有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811636233.5/2.html,轉載請聲明來源鉆瓜專利網。





