[發明專利]網站搜索用詞匯數據庫更新方法、系統及計算機存儲介質有效
| 申請號: | 202011138173.1 | 申請日: | 2020-10-22 |
| 公開(公告)號: | CN112307219B | 公開(公告)日: | 2022-11-04 |
| 發明(設計)人: | 張凱;劉杰;周建設;史金生;王偉麗 | 申請(專利權)人: | 首都師范大學 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/31 |
| 代理公司: | 北京清控智云知識產權代理事務所(特殊普通合伙) 11919 | 代理人: | 管士濤 |
| 地址: | 100089 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網站 搜索 用詞 數據庫 更新 方法 系統 計算機 存儲 介質 | ||
本申請的技術方案將Web數據作為概念分析數據源,并利用本體概念層次分析方法對Web數據進行分析,最終獲得新的概念及對應的層次從屬關系,從而實現了網站搜索用詞匯數據庫的自動化更新操作,確保了更新操作的準確及時。
技術領域
本申請涉及語義分析技術領域,具體而言,涉及一種網站搜索用詞匯數據庫更新方法、系統及計算機存儲介質。
背景技術
搜索系統是各種文獻檢索類專業數據檢索網站的主要功能模塊,在用戶通過搜索信息,快速準確地獲得符合用戶需求的檢索信息結果。在搜索系統中,搜索用詞匯數據庫更新技術是基礎,數據庫中一般包括概念及其對應的層次從屬關系。傳統的搜索用詞匯數據庫更新方式是由人力手動更新,然而,在網絡信息時代,信息更新是十分迅速的,且幾乎無法通過人力實現搜索詞匯的及時且全面的更新。于是,如何對網絡信息進行分析獲得詞匯的知識系統以用于網站搜索,這是目前亟需解決的技術問題。
發明內容
為了解決上述檢索領域現有技術中存在的技術問題,本申請提供了一種網站搜索用詞匯數據庫更新方法、系統及計算機存儲介質。
本申請的第一方面提供了一種網站搜索用詞匯數據庫更新方法,其特征在于,所述方法包括:
S1,構建初始網站搜索用詞匯數據庫,其中包括若干初始概念及對應的層次從屬關系;
S2,調用本體概念層次分析方法對Web數據進行分析,以獲得若干新的概念及對應的層次從屬關系;
S3,將獲得的所述若干新的概念及對應的層次從屬關系并入所述初始網站搜索用詞匯數據庫,其中,若所述初始網站搜索用詞匯數據庫中已經存在所述新的概念,則只將所述已經存在的概念的層次從屬關系更新為所述新的概念的層次從屬關系。
優選地,在步驟S2中調用本體概念層次分析方法對Web數據進行分析,以獲得若干新的概念及對應的層次從屬關系,包括如下步驟:
S21、利用線索詞構造蘊含層次關系的查詢串,借助搜索引擎從Web中獲取富含層次關系的語料;
S22、綜合利用從Web獲取的關系富集語料、百科知識解釋條目及新聞文檔構造概念向量空間模型,融合基于《知網》的概念語義相似度建立概念圖;
S23、在對所述概念圖進行剪枝操作后,利用改進的層次樹構造算法得到概念間明確的層次從屬關系。
優選地,所述S21中,利用線索詞構造蘊含層次關系的查詢串,借助搜索引擎從Web中獲取富含層次關系的語料,包括:
將集合中的概念對(ci,cj)提交給搜索引擎,得到前k條返回結果的摘要文本集T1以及搜索引擎針對該概念對提供的查詢推薦條目T2;
針對由概念對(ci,cj)得到的文本集T1和T2,分別從中查找同時包含概念ci和cj的句子,存入關系語境集context1和context2中;
分別對關系語境集context1和context2中的關系語境進行分詞和詞性標注,將兩者中出現的名詞、動詞、副詞和連詞存入W1和W2,W=W1∪W2,統計W中每個詞語在對應的關系語境集中出現的頻次;
計算W中候選線索詞wi與其表示的層次關系ri的相關度
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于首都師范大學,未經首都師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011138173.1/2.html,轉載請聲明來源鉆瓜專利網。





