[發明專利]一種基于知識圖譜的智能搜索方法及系統在審
| 申請號: | 202010918512.1 | 申請日: | 2020-09-04 |
| 公開(公告)號: | CN112148885A | 公開(公告)日: | 2020-12-29 |
| 發明(設計)人: | 陳剛 | 申請(專利權)人: | 上海晏鼠計算機技術股份有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/38;G06F16/31;G06F40/258;G06F40/289;G06F16/953 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 200082 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 知識 圖譜 智能 搜索 方法 系統 | ||
本發明公開了一種基于知識圖譜的智能搜索方法,該方法步驟包括,第一步:用戶輸入檢索詞/詞組進行檢索,第二步:對用戶輸入的檢索詞/詞組進行分詞,第三步:將分詞后的檢索詞/詞組與知識圖譜核心詞進行精確匹配和近義詞匹配,第四步:核心詞匹配成功則繼續與“核心詞知識圖譜”中的節點詞進行精確匹配和近義詞匹配;第五步:核心詞匹配不成功,則將檢索詞/詞組在非關系型數據庫中與全部文章的標題和內容進行匹配,獲取到匹配的文章內容,第六步:將獲取到的文章內容,進行內容清洗、去重、排序后,進行內容輸出,本發明的有益效果是,該方法主要是在在傳統索引式檢索的基礎上,引入知識圖譜構建和標注體系,為用戶提供更為精準和快速的搜索結果。
技術領域
本發明涉及搜索方法技術領域,具體為一種基于知識圖譜的智能搜索方法及系統。
背景技術
用戶進行搜索時,多采取傳統的索引式檢索形式,基于傳統關系型數據庫中關鍵詞匹配進行檢索,往往存在查不全、查不準、檢索質量不高的現象,特別是在網絡信息時代,利用傳統關鍵詞匹配很難滿足人們檢索的要求,尤其是對于大段文本的檢索,索引式檢索不僅速度慢而且無法對患者的輸入詞進行有效理解。
基于知識圖譜的智能搜索,主要通過自然語言處理和知識圖譜等人工智能技術,來實現人工智能在搜索引擎產品的落地。知識圖譜于2012年5月正式被提出,其目標在于改善搜索結果,描述真實世界中存在的各種實體和概念,以及這些實體、概念之間的關聯關系。
運用了知識圖譜的智能搜索引擎,可以返回更加精準的結果。搜索+知識圖譜,是未來搜索引擎的發展方向,未來的搜索引擎,會以用戶為核心,越來越智能化。
基于此,本發明設計了一種基于知識圖譜的智能搜索方法及系統,以解決上述問題。
發明內容
本發明公開了一種基于知識圖譜的智能搜索方法及系統,該方法用于解決傳統關鍵詞匹配很難滿足人們檢索的要求,尤其是對于大段文本的檢索,索引式檢索不僅速度慢而且無法對患者的輸入詞進行有效理解的問題。
為實現上述目的,本發明提供如下技術方案:一種基于知識圖譜的智能搜索方法,該方法步驟包括:
第一步:用戶輸入檢索詞/詞組進行檢索;
第二步:對用戶輸入的檢索詞/詞組進行分詞;
第三步:將分詞后的檢索詞/詞組與知識圖譜核心詞進行精確匹配和近義詞匹配;
第四步:核心詞匹配成功則繼續與“核心詞知識圖譜”中的節點詞進行精確匹配和近義詞匹配;節點詞匹配成功則到在文章標簽表中獲取文章ID,以文章ID到數據存儲模塊中獲取文章內容;節詞匹配不成功,則將檢索詞/詞組在核心詞所屬全部文章中進行標題和正文匹配檢索,獲取到匹配的文章內容;
第五步:核心詞匹配不成功,則將檢索詞/詞組在非關系型數據庫中與全部文章的標題和內容進行匹配,獲取到匹配的文章內容;
第六步:將獲取到的文章內容,進行內容清洗、去重、排序后,進行內容輸出。
作為本發明進一步的技術方案,知識圖譜構建和文章數據打標是智能檢索的前提,其中方法步驟包括:
第一步:知識圖譜構建,給定多個核心詞,通過數據采集獲取到每個核心詞對應的海量原始文章,將海量文章進行歸一化存儲以及分詞處理,去除掉“停用詞、虛詞、量詞、代詞、數詞、形容詞”等對構建知識圖譜無用的詞,保留下名詞/動詞作為核心詞知識圖譜各級節點中的候選實體詞;
第二步:各核心詞知識圖譜與對應的海量原始文章內容分別存入數據存儲模塊;
第三步:各核心詞知識圖譜構建完畢后,對相應的“采集獲取的海量文章”進行文章標注,采集獲取到的文章數據會隨著不斷采集,數據不斷累多,文章標注的過程也會不斷進行,步驟方法包括,文章打標、將文章進行段落拆分,并對每個段落進行分詞、段落打標;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海晏鼠計算機技術股份有限公司,未經上海晏鼠計算機技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010918512.1/2.html,轉載請聲明來源鉆瓜專利網。





