[發明專利]網站搜索用詞匯數據庫更新方法、系統及計算機存儲介質有效

申請號：	202011138173.1	申請日：	2020-10-22
公開（公告）號：	CN112307219B	公開（公告）日：	2022-11-04
發明（設計）人：	張凱;劉杰;周建設;史金生;王偉麗	申請（專利權）人：	首都師范大學
主分類號：	G06F16/36	分類號：	G06F16/36;G06F16/31
代理公司：	北京清控智云知識產權代理事務所(特殊普通合伙) 11919	代理人：	管士濤
地址：	100089 北***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	網站搜索用詞數據庫更新方法系統計算機存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本申請的技術方案將Web數據作為概念分析數據源，并利用本體概念層次分析方法對Web數據進行分析，最終獲得新的概念及對應的層次從屬關系，從而實現了網站搜索用詞匯數據庫的自動化更新操作，確保了更新操作的準確及時。

技術領域

本申請涉及語義分析技術領域，具體而言，涉及一種網站搜索用詞匯數據庫更新方法、系統及計算機存儲介質。

背景技術

搜索系統是各種文獻檢索類專業數據檢索網站的主要功能模塊,在用戶通過搜索信息,快速準確地獲得符合用戶需求的檢索信息結果。在搜索系統中,搜索用詞匯數據庫更新技術是基礎，數據庫中一般包括概念及其對應的層次從屬關系。傳統的搜索用詞匯數據庫更新方式是由人力手動更新，然而，在網絡信息時代，信息更新是十分迅速的，且幾乎無法通過人力實現搜索詞匯的及時且全面的更新。于是，如何對網絡信息進行分析獲得詞匯的知識系統以用于網站搜索，這是目前亟需解決的技術問題。

發明內容

為了解決上述檢索領域現有技術中存在的技術問題，本申請提供了一種網站搜索用詞匯數據庫更新方法、系統及計算機存儲介質。

本申請的第一方面提供了一種網站搜索用詞匯數據庫更新方法，其特征在于，所述方法包括：

S1，構建初始網站搜索用詞匯數據庫，其中包括若干初始概念及對應的層次從屬關系；

S2，調用本體概念層次分析方法對Web數據進行分析，以獲得若干新的概念及對應的層次從屬關系；

S3，將獲得的所述若干新的概念及對應的層次從屬關系并入所述初始網站搜索用詞匯數據庫，其中，若所述初始網站搜索用詞匯數據庫中已經存在所述新的概念，則只將所述已經存在的概念的層次從屬關系更新為所述新的概念的層次從屬關系。

優選地，在步驟S2中調用本體概念層次分析方法對Web數據進行分析，以獲得若干新的概念及對應的層次從屬關系，包括如下步驟：

S21、利用線索詞構造蘊含層次關系的查詢串，借助搜索引擎從Web中獲取富含層次關系的語料；

S22、綜合利用從Web獲取的關系富集語料、百科知識解釋條目及新聞文檔構造概念向量空間模型，融合基于《知網》的概念語義相似度建立概念圖；

S23、在對所述概念圖進行剪枝操作后，利用改進的層次樹構造算法得到概念間明確的層次從屬關系。

優選地，所述S21中，利用線索詞構造蘊含層次關系的查詢串，借助搜索引擎從Web中獲取富含層次關系的語料，包括：

將集合中的概念對(c_i，c_j)提交給搜索引擎，得到前k條返回結果的摘要文本集T₁以及搜索引擎針對該概念對提供的查詢推薦條目T₂；