[發(fā)明專利]一種基于本體的密度自適應(yīng)概念語義相似度計算方法有效
| 申請?zhí)枺?/td> | 201810025611.X | 申請日: | 2018-01-11 |
| 公開(公告)號: | CN108256030B | 公開(公告)日: | 2020-10-23 |
| 發(fā)明(設(shè)計)人: | 李飛;廖樂健;何景 | 申請(專利權(quán))人: | 北京理工大學(xué) |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/33;G06F40/30;G06F40/247 |
| 代理公司: | 北京正陽理工知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11639 | 代理人: | 王民盛 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 本體 密度 自適應(yīng) 概念 語義 相似 計算方法 | ||
本發(fā)明涉及一種基于本體的密度自適應(yīng)概念語義相似度計算方法,屬于人工智能領(lǐng)域中的自然語言理解技術(shù)領(lǐng)域。該語義相似度計算方法通過合并邊統(tǒng)計模型和信息理論推導(dǎo)出一種邊權(quán)重函數(shù),然后表示出概念的深度和概念間的最短路徑權(quán)重,最終應(yīng)用到傳統(tǒng)的基于邊的方法中計算概念語義相似度。本發(fā)明提出的模型具有與目前效果最好的基于信息內(nèi)容方法同樣的性能,不需要額外的參數(shù),能夠自適應(yīng)不同密度對邊的影響,具有很好地通用性,且時間復(fù)雜度比基于信息內(nèi)容的方法具有明顯的優(yōu)勢,是一種高性能和高效率的概念語義相似度方法,具有更好地應(yīng)用前景。
技術(shù)領(lǐng)域
本發(fā)明涉及一種概念語義相似度計算方法,特別涉及一種基于本體的密度自適應(yīng)概念語義相似度計算方法,屬于人工智能領(lǐng)域中的自然語言理解技術(shù)領(lǐng)域。
背景技術(shù)
概念語義相似度計算是自然語言處理的一個基礎(chǔ)研究內(nèi)容,在智能檢索、詞義消歧、機器學(xué)習(xí)、拼寫校正、機器翻譯和信息抽取等領(lǐng)域都有廣泛的應(yīng)用。目前概念語義相似度計算的研究策略大體分為三類:一類是利用大規(guī)模的語料庫進行統(tǒng)計,它主要將上下文信息的概率分布作為概念語義相似度的參照依據(jù),這需要一個覆蓋某一領(lǐng)域所有信息的語料庫,顯然這是很困難的。一類是根據(jù)某種世界知識來計算,主要是基于概念間結(jié)構(gòu)層次關(guān)系的語義詞典(本體)的方法,根據(jù)在語義詞典中概念之間的上下位關(guān)系和同位關(guān)系來計算概念的相似度,與相關(guān)方法相比,這類方法在計算概念語義相似度的精度方面具有明顯的優(yōu)勢;另一類是基于百科知識的方法,百科知識是一個半結(jié)構(gòu)化語料庫,且概念間的結(jié)構(gòu)層次關(guān)系并不十分嚴(yán)謹(jǐn),Zesch等在Comparing Wikipedia and German WordNet byevaluating semantic relatedness on multiple datasets(in Proceedings of HumanLanguage Technologies:The 2007Annual Conference of the North American Chapterof the Association for Computational Linguistics,pages 205-208,2007)中表明這類方法不是很好地適用于概念語義相似度,主要用于計算概念語義相關(guān)度。
目前,在語義詞典分類方法中,基于邊和基于信息內(nèi)容(Information Content,IC)的方法是語義相似度研究的重點。邊是本體層次結(jié)構(gòu)的重要組成部分,因此基于邊的概念語義相似度計算具有直觀、易于理解和較低的計算復(fù)雜度等特點。然而,一個大型的詞匯本體由于其具有寬廣的覆蓋領(lǐng)域,概念之間的連接可能存在不規(guī)則問題,這種不規(guī)則問題主要體現(xiàn)在兩個方面:概念的密度不規(guī)則和概念的深度不規(guī)則。密度不規(guī)則指的是本體中通過“上下位”關(guān)系連接的概念結(jié)點的數(shù)目不同,深度不規(guī)則指的是概念在本體中的深度不同。基于邊的方法通過合并概念的深度和概念間的最短路徑,能夠克服深度不規(guī)則問題,但是它不能解決密度不規(guī)則問題,這將導(dǎo)致相同的概念路徑在不同的密度區(qū)域下表示不同的語義距離。目前,基于邊的方法無法有效解決該問題,在國際標(biāo)準(zhǔn)測試集MC30中,優(yōu)秀的基于邊的方法與MC30的人工判定值的皮爾遜相關(guān)系數(shù)僅僅只有0.8。Zhu等在An efficientpath computing model for measuring semantic similarity using edge and density(in Knowledge And Information Systems,no.2-3,pages 1-33,2017)中通過一個平滑參數(shù)將區(qū)域密度加入邊中來補償路徑(在本發(fā)明中稱其為“密度補償模型”)來解決密度不規(guī)則問題,但是這種方法是基于經(jīng)驗值,當(dāng)本體被更新時,該模型需要重新調(diào)優(yōu)參數(shù)以達到最優(yōu)效果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京理工大學(xué),未經(jīng)北京理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810025611.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 使用后向自適應(yīng)規(guī)則進行整數(shù)數(shù)據(jù)的無損自適應(yīng)Golomb/Rice編碼和解碼
- 一種自適應(yīng)軟件UML建模及其形式化驗證方法
- 媒體自適應(yīng)參數(shù)的調(diào)整方法、系統(tǒng)及相關(guān)設(shè)備
- 五自由度自適應(yīng)位姿調(diào)整平臺
- 采用自適應(yīng)機匣和自適應(yīng)風(fēng)扇的智能發(fā)動機
- 一種自適應(yīng)樹木自動涂白裝置
- 一種基于微服務(wù)的多層次自適應(yīng)方法
- 一種天然氣發(fā)動機燃?xì)庾赃m應(yīng)控制方法及系統(tǒng)
- 一種中心自適應(yīng)的焊接跟蹤機頭
- 一種有砟軌道沉降自適應(yīng)式軌道系統(tǒng)





