[發(fā)明專利]基于WEB資源的本體概念層次獲取方法、系統(tǒng)及存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202011140231.4 | 申請(qǐng)日: | 2020-10-22 |
| 公開(kāi)(公告)號(hào): | CN112364175A | 公開(kāi)(公告)日: | 2021-02-12 |
| 發(fā)明(設(shè)計(jì))人: | 張凱;劉杰;周建設(shè);朱海平 | 申請(qǐng)(專利權(quán))人: | 首都師范大學(xué) |
| 主分類號(hào): | G06F16/36 | 分類號(hào): | G06F16/36 |
| 代理公司: | 北京清控智云知識(shí)產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 11919 | 代理人: | 管士濤 |
| 地址: | 100089 北*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 web 資源 本體 概念 層次 獲取 方法 系統(tǒng) 存儲(chǔ) 介質(zhì) | ||
本申請(qǐng)?zhí)岢隽艘环N基于WEB資源的本體概念層次獲取方法,利用線索詞構(gòu)造蘊(yùn)含層次關(guān)系的查詢串,借助搜索引擎從Web中獲取富含層次關(guān)系的語(yǔ)料;綜合利用從Web獲取的關(guān)系富集語(yǔ)料、百科知識(shí)解釋條目及新聞文檔構(gòu)造概念向量空間模型,融合基于《知網(wǎng)》的概念語(yǔ)義相似度建立概念圖;在對(duì)所述概念圖進(jìn)行剪枝操作后,利用改進(jìn)的層次樹構(gòu)造算法得到概念間明確的層次從屬關(guān)系。本申請(qǐng)的方案獲取的層次從屬關(guān)系的準(zhǔn)確率明顯優(yōu)于現(xiàn)有技術(shù),為實(shí)現(xiàn)人機(jī)之間及機(jī)器之間的語(yǔ)義信息交互打下了堅(jiān)實(shí)的基礎(chǔ)。
技術(shù)領(lǐng)域
本申請(qǐng)涉及概念層次分析技術(shù)領(lǐng)域,具體而言,涉及一種基于WEB資源的本體概念層次獲取方法、系統(tǒng)及計(jì)算機(jī)存儲(chǔ)介質(zhì)。
背景技術(shù)
領(lǐng)域本體是對(duì)特定領(lǐng)域共享概念模型明確、規(guī)范的說(shuō)明,以術(shù)語(yǔ)集及術(shù)語(yǔ)間的關(guān)系反映該領(lǐng)域的知識(shí)系統(tǒng),可用于實(shí)現(xiàn)人機(jī)之間及機(jī)器之間的語(yǔ)義信息交互。目前,領(lǐng)域本體已被廣泛應(yīng)用于諸多信息應(yīng)用領(lǐng)域,如信息檢索、信息抽取、及問(wèn)答系統(tǒng)等。
現(xiàn)有技術(shù)中存在一種層次化的本體構(gòu)建模型,把本體構(gòu)建分解為術(shù)語(yǔ)識(shí)別、同義詞消解、概念獲取、概念層次關(guān)系的獲取、關(guān)系以及公理六個(gè)層次。這種層次化的本體構(gòu)建模型雖然在一定程度上可以降低本體工程的復(fù)雜性,但是仍然無(wú)法做到快速高效的獲取領(lǐng)域本體。
于是,如何快速、高效地獲取領(lǐng)域本體依然是個(gè)亟待解決的難題。
發(fā)明內(nèi)容
為了解決上述檢索領(lǐng)域現(xiàn)有技術(shù)中存在的技術(shù)問(wèn)題,本申請(qǐng)?zhí)峁┝艘环N基于WEB資源的本體概念層次獲取方法、系統(tǒng)及計(jì)算機(jī)存儲(chǔ)介質(zhì)。
本申請(qǐng)的第一方面提供了一種基于WEB資源的本體概念層次獲取方法,其特征在于,所述方法包括:
S1、利用線索詞構(gòu)造蘊(yùn)含層次關(guān)系的查詢串,借助搜索引擎從Web中獲取富含層次關(guān)系的語(yǔ)料;
S2、綜合利用從Web獲取的關(guān)系富集語(yǔ)料、百科知識(shí)解釋條目及新聞文檔構(gòu)造概念向量空間模型,融合基于《知網(wǎng)》的概念語(yǔ)義相似度建立概念圖;
S3、在對(duì)所述概念圖進(jìn)行剪枝操作后,利用改進(jìn)的層次樹構(gòu)造算法得到概念間明確的層次從屬關(guān)系。
優(yōu)選地,所述S1中,利用線索詞構(gòu)造蘊(yùn)含層次關(guān)系的查詢串,借助搜索引擎從Web中獲取富含層次關(guān)系的語(yǔ)料,包括:
將集合中的概念對(duì)(ci,cj)提交給搜索引擎,得到前k條返回結(jié)果的摘要文本集T1以及搜索引擎針對(duì)該概念對(duì)提供的查詢推薦條目T2;
針對(duì)由概念對(duì)(ci,cj)得到的文本集T1和T2,分別從中查找同時(shí)包含概念ci和cj的句子,存入關(guān)系語(yǔ)境集context1和context2中;
分別對(duì)關(guān)系語(yǔ)境集context1和context2中的關(guān)系語(yǔ)境進(jìn)行分詞和詞性標(biāo)注,將兩者中出現(xiàn)的名詞、動(dòng)詞、副詞和連詞存入W1和W2,W=W1∪W2,統(tǒng)計(jì)W中每個(gè)詞語(yǔ)在對(duì)應(yīng)的關(guān)系語(yǔ)境集中出現(xiàn)的頻次;
計(jì)算W中候選線索詞wi與其表示的層次關(guān)系ri的相關(guān)度
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于首都師范大學(xué),未經(jīng)首都師范大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011140231.4/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 提供共享Web模塊的系統(tǒng)和方法
- 管理環(huán)球網(wǎng)網(wǎng)頁(yè)中的環(huán)球網(wǎng)媒體的系統(tǒng)及其實(shí)現(xiàn)方法
- 一種WEB業(yè)務(wù)實(shí)現(xiàn)系統(tǒng)、裝置及方法
- 高速緩存廣播信息的方法和裝置
- 基于QoS指標(biāo)和Web服務(wù)輸出參數(shù)的Web服務(wù)組合方法和裝置
- Web托管審查方法、裝置及Web托管系統(tǒng)
- 用于信息處理和Web瀏覽歷史導(dǎo)航的方法和設(shè)備及電子裝置
- 用于將web站點(diǎn)轉(zhuǎn)換為目標(biāo)web app站點(diǎn)的方法和裝置
- 用于防護(hù)WEB漏洞的方法和設(shè)備
- 一種Web攻擊報(bào)告生成方法、裝置、設(shè)備及計(jì)算機(jī)介質(zhì)





