[發明專利]基于WEB資源的本體概念層次獲取方法、系統及存儲介質在審
| 申請號: | 202011140231.4 | 申請日: | 2020-10-22 |
| 公開(公告)號: | CN112364175A | 公開(公告)日: | 2021-02-12 |
| 發明(設計)人: | 張凱;劉杰;周建設;朱海平 | 申請(專利權)人: | 首都師范大學 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36 |
| 代理公司: | 北京清控智云知識產權代理事務所(特殊普通合伙) 11919 | 代理人: | 管士濤 |
| 地址: | 100089 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 web 資源 本體 概念 層次 獲取 方法 系統 存儲 介質 | ||
1.一種基于WEB資源的本體概念層次獲取方法,應用于電子設備,其特征在于,所述方法包括:
S1、利用線索詞構造蘊含層次關系的查詢串,借助搜索引擎從Web中獲取富含層次關系的語料;
S2、綜合利用從Web獲取的關系富集語料、百科知識解釋條目及新聞文檔構造概念向量空間模型,融合基于《知網》的概念語義相似度建立概念圖;
S3、在對所述概念圖進行剪枝操作后,利用改進的層次樹構造算法得到概念間明確的層次從屬關系。
2.根據權利要求1所述的方法,其特征在于:所述S1中,利用線索詞構造蘊含層次關系的查詢串,借助搜索引擎從Web中獲取富含層次關系的語料,包括:
將集合中的概念對(ci,cj)提交給搜索引擎,得到前k條返回結果的摘要文本集T1以及搜索引擎針對該概念對提供的查詢推薦條目T2;
針對由概念對(ci,cj)得到的文本集T1和T2,分別從中查找同時包含概念ci和cj的句子,存入關系語境集context1和context2中;
分別對關系語境集context1和context2中的關系語境進行分詞和詞性標注,將兩者中出現的名詞、動詞、副詞和連詞存入W1和W2,W=W1∪W2,統計W中每個詞語在對應的關系語境集中出現的頻次;
計算W中候選線索詞wi與其表示的層次關系ri的相關度
其中,f1(wi)和f2(wi)分別為wi在context1和context2中出現的頻次,fq(wi)表示包含與層次關系ri對應的查詢串中包含wi的條數,Max為取最大值的函數;
針對層次關系ri對應的候選線索詞集,選取相關度relevance(wi,ri)最大的前10個為線索詞;
得到線索詞之后,在對應的關系語境集中查找包含線索詞的語境片段,假設目標語境中包含的兩個概念分別為ci和cj,則分別把ci和cj替換為正則表達式中表示任意連續文字的“.*”,得到層次關系查詢串q1(ci,cj)和q2(ci,cj),至此,即成功構造了基于線索次的層次關系查詢串。
3.根據權利要求1所述的方法,其特征在于:所述步驟S1中,借助搜索引擎從Web中獲取富含層次關系的語料,包括:
對于包含概念ci的查詢串,將其對應的搜索引擎返回的摘要文本存入文檔di中,類似地,對概念集C中的每個概念均可得到一個文檔,這些文檔即構成了概念集C對應的層次關系語料庫D1={di|1≤i≤m}。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于首都師范大學,未經首都師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011140231.4/1.html,轉載請聲明來源鉆瓜專利網。





