[發明專利]基于Bootstrapping技術的領域本體概念自動獲取方法無效
| 申請號: | 201210118233.2 | 申請日: | 2012-04-20 |
| 公開(公告)號: | CN102622341A | 公開(公告)日: | 2012-08-01 |
| 發明(設計)人: | 杜軍平;楊月華;李雪 | 申請(專利權)人: | 北京郵電大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 bootstrapping 技術 領域 本體 概念 自動 獲取 方法 | ||
1.基于Bootstrapping技術的領域本體概念自動獲取方法,其特征在于,首先為了解決無法提取復合形式領域概念的問題,本方法基于互信息和左、右信息熵提取了復合詞語;然后基于共現句頻的候選概念判定條件從中提取出候選領域概念;之后應用M評價和T評價結合的方法對候選概念進行評價,將其中符合評價標準的領域概念提取出來,并將評價值較高的領域概念選作重要概念進行新一輪的學習過程;為了避免遺漏出現頻率較低、語義相似的領域概念,本方法引入了語義因素,通過計算語義相似度提取出語義相似的領域概念;最后給出了詳細的算法,包括復合詞語的提取、語義相似的判定及領域概念的獲取3個部分。
2.根據權利要求1所述的方法,其特征在于,基于互信息和左、右信息熵提取了復合詞語,復合詞語由多個詞語組合而成,復合詞語經過分詞后會被切分為若干個詞語,這些詞語之間存在著一定的相關性,此外,復合詞語本身與上下文還存在著依賴關系,因此本文將通過給定的閾值,計算字符串的互信息以及字符串的左信息熵和右信息熵來判定字串是否是復合詞語。
3.根據權利要求1所述的方法,其特征在于,提出了基于共現句頻的候選概念判定條件,并根據判定條件提取候選領域概念,判定條件基于這樣的假設:如果某個詞語或組成復合詞語的各個詞語和領域概念在一個句子中共同出現達到一定的頻率的話,那么這個詞語或復合詞語就有可能也是該領域的領域概念,判定條件如下:
4.根據權利要求1所述的方法,其特征在于,應用M評價和T評價結合的方法對候選概念進行評價,將其中符合評價標準的領域概念提取出來,并將評價值較高的領域概念選作重要概念進行新一輪的學習過程。
5.根據權利要求1所述的方法,其特征在于,引入了語義因素,通過計算語義相似度提取出語義相似的領域概念。對于從語料庫中提取出的詞語w,首先基于詞語的上下文信息計算其與重要概念集合中的每個領域概念的語義相似度sim(w,IW),若語義相似度的值大于給定的閾值tsim,再計算詞語在語料庫中的支持度S(w,IW),若S(w,IW)大于領域概念必須達到的最小支持度Smin,則認為w是領域概念。由此得出語義相似的領域概念應滿足的條件如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學,未經北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210118233.2/1.html,轉載請聲明來源鉆瓜專利網。





