[發(fā)明專利]一種知識圖譜存儲與搜索方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202310246479.6 | 申請日: | 2023-03-10 |
| 公開(公告)號: | CN116467291A | 公開(公告)日: | 2023-07-21 |
| 發(fā)明(設計)人: | 楊超;高文飛;張?zhí)祓?/a>;張榮;劉洋 | 申請(專利權)人: | 北京無代碼科技有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/2458;G06F16/28 |
| 代理公司: | 北京華清迪源知識產權代理有限公司 11577 | 代理人: | 陳晨 |
| 地址: | 100000 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 知識 圖譜 存儲 搜索 方法 系統(tǒng) | ||
本發(fā)明公開了一種知識圖譜存儲與搜索方法及系統(tǒng),根據(jù)用戶需求收集所需要的政策相關實體及關系數(shù)據(jù),并對收集到的數(shù)據(jù)進行清洗;將獲取到的政策相關實體及關系數(shù)據(jù)構建成知識圖譜的圖模型,通過圖相關算法對圖譜的語義信息進行分析和完善,并對圖譜進行多維度分析及圖譜操作,通過分布式圖存儲技術實現(xiàn)圖數(shù)據(jù)分散存儲于集群中;基于預先構建的查詢語言使用搜索引擎或者自然語言處理技術對所述圖模型進行檢索獲取檢索結果,并使用可視化工具對檢索結果進行可視化處理。該方法能夠帶來更好的搜索效率和結果準確性,以及更快的可視化查詢結果,可以幫助企業(yè)更好地理解客戶和市場,挖掘潛在的關聯(lián)關系,策劃準確的市場營銷策略,從而提高企業(yè)的營銷效果。
技術領域
本發(fā)明涉及知識圖譜技術領域,具體涉及一種知識圖譜存儲與搜索方法及系統(tǒng)。
背景技術
傳統(tǒng)的數(shù)據(jù)庫技術無法有效地搜索結構性和非結構性數(shù)據(jù),從而限制了用戶對數(shù)據(jù)的靈活性,也限制了用戶對數(shù)據(jù)的理解和發(fā)現(xiàn)數(shù)據(jù)的價值。知識圖譜存儲與搜索是一種新型的數(shù)據(jù)存儲和搜索技術,可以幫助用戶組織和搜索結構化和非結構化數(shù)據(jù),從而更好地提取有價值的信息。它主要用于解決傳統(tǒng)數(shù)據(jù)庫技術在搜索結構性和非結構性數(shù)據(jù)時的限制,使用戶能夠更快更好地獲取有價值的信息。此外,知識圖譜存儲與搜索技術還能夠幫助用戶更好地理解數(shù)據(jù)之間的關系,幫助用戶更好地發(fā)現(xiàn)數(shù)據(jù)的價值。
發(fā)明內容
為此,本發(fā)明提供一種知識圖譜存儲與搜索方法及系統(tǒng),以解決傳統(tǒng)的數(shù)據(jù)庫技術無法有效地搜索結構性和非結構性數(shù)據(jù),從而限制了用戶對數(shù)據(jù)的靈活性,也限制了用戶對數(shù)據(jù)的理解和發(fā)現(xiàn)數(shù)據(jù)的價值的問題。
為了實現(xiàn)上述目的,本發(fā)明提供如下技術方案:
根據(jù)本發(fā)明實施例的第一方面,提出一種知識圖譜存儲與搜索方法,所述方法包括:
根據(jù)用戶需求收集所需要的政策相關實體及關系數(shù)據(jù),所述數(shù)據(jù)從包括公開數(shù)據(jù)源、網(wǎng)頁爬取、傳統(tǒng)數(shù)據(jù)庫的多種數(shù)據(jù)源中獲取,并對收集到的數(shù)據(jù)進行清洗,包括格式標準化、缺失值處理、臟數(shù)據(jù)處理;
將獲取到的政策相關實體及關系數(shù)據(jù)構建成知識圖譜的圖模型,通過圖相關算法對圖譜的語義信息進行分析和完善并采用數(shù)據(jù)挖掘算法進行數(shù)據(jù)挖掘,并對圖譜進行多維度分析及圖譜操作,通過分布式圖存儲技術實現(xiàn)圖數(shù)據(jù)分散存儲于集群中;
基于預先構建的查詢語言使用搜索引擎或者自然語言處理技術對所述圖模型進行檢索獲取檢索結果,并使用可視化工具對檢索結果進行可視化處理。
進一步地,通過圖相關算法對圖譜的語義信息進行分析和完善,具體包括:
從包含實體名的自然語言文本中提取出實體名,然后基于實體鏈接算法,利用文本特征,結合已有的知識圖譜信息,匹配知識圖譜中的實體節(jié)點,并給出匹配得分,最終選擇得分最高的實體作為鏈接結果,實現(xiàn)將文本中的實體名鏈接到知識圖譜中對應的實體節(jié)點上;
通過自然語言處理技術分析文本,提取出實體及其在文本中的位置信息;然后基于關系抽取算法,從文本中抽取出實體之間的關系類型及其信任度,最終抽取到的關系信息映射到對應的關系邊上,更新知識圖譜中的關系信息。
進一步地,采用數(shù)據(jù)挖掘算法進行數(shù)據(jù)挖掘,具體包括:
先通過自然語言處理技術預處理文本;然后使用主題建模算法從文本中提取出主題分布和關鍵詞,并將文本歸類到不同的主題下;最終根據(jù)主題分布和關鍵詞,分析社會熱點事件的原因和影響因素,為政府決策提供參考;
首先構建政務管理領域的社交網(wǎng)絡,以賬號為節(jié)點,以粉絲、互動等關系為邊;然后基于社交網(wǎng)絡分析算法,計算每個節(jié)點的網(wǎng)絡中心度、介數(shù)中心度等指標,發(fā)現(xiàn)影響力節(jié)點和群組結構;最后分析信息流動路徑和傳播效果,為政府決策提供參考。
進一步地,對圖譜進行多維度分析及圖譜操作,具體包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京無代碼科技有限公司,未經北京無代碼科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310246479.6/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





