[發明專利]提取領域本體概念的詞語排除法無效
| 申請號: | 201010502040.8 | 申請日: | 2010-09-30 |
| 公開(公告)號: | CN101963989A | 公開(公告)日: | 2011-02-02 |
| 發明(設計)人: | 黨延忠;于娟 | 申請(專利權)人: | 大連理工大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 大連理工大學專利中心 21200 | 代理人: | 梅洪玉 |
| 地址: | 116024 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 提取 領域 本體 概念 詞語 排除法 | ||
技術領域
本發明涉及到領域本體概念的提取方法,特別涉及到詞語排除法提取領域本體概念。
背景技術
領域本體概念(即領域專有概念,簡稱領域概念)是描述一組領域對象的共同特征的知識單元。領域概念提取方法主要用于支持構建領域概念的詞語集合,輔助領域專家收集領域概念和統一概念的詞語(領域術語),即,構建領域概念所唯一對應的術語的集合。領域術語是能夠描述領域的最恰當的詞語,是代表領域概念的標準化術語。
領域概念的提取方法是利用計算機模擬人類領域專家的行為,獲取領域概念的詞語集合的機器學習方法和技術。由于文本語料易于獲得,領域概念的提取一般基于文本語料進行。屬于同一領域的電子文檔中包含著相同的術語,因此,可以從領域文檔中獲取這些術語作為領域概念。從領域文檔中提取領域概念集合的方法主要分為三類:1)基于語言學的方法,2)基于統計學的方法,3)混合方法。
基于語言學的方法首先根據領域概念在真實語料中出現的特殊的詞法結構得到模板,然后抽取符合這些模板的詞語作為領域概念。由于這些模板大多與具體語言相關,因此,這類方法需要針對具體的語言實施不同的處理。
基于統計學的方法主要根據領域概念與領域非專有概念在真實語料中出現的不同的統計特征識別得到領域概念。目前已有的中文領域概念學習方法中,基于統計的方法是主流。專利200510011131.0提出的基于成熟工藝文檔的工藝術語提取、規律分析和重用方法,能夠提取成熟工藝文檔的工藝術語。陳文亮等人采用Bootstrapping機器學習技術從大規模的無詞性標注語料中自動獲取領域術語。鄭家恒等人提出了結合非線性函數與“成對比較法”,綜合考慮位置和詞頻兩項因素計算候選詞的權重,以自動抽取關鍵詞。程勇在博士學位論文中給出了一種從Hownet中學習的基于統計學學習領域概念的方法。何燕等人給出了一個基于統計方法從計算機專業詞典中學習計算機本體概念的方法。
混合方法結合使用了語言學和統計學的方法和技術以期獲得更好的學習結果。有的方法在統計處理之后采用語法過濾器,抽取出經過統計計算有意義的且與給定詞法模板匹配的詞語組合;有的方法首先采用語言學方法選出候選項,然后再用統計方法對這些候選項進行計算。杜波等人提出了一種結合規則與統計的專業領域術語抽取算法。張新也研究了一種結合規則與統計的本體概念學習方法。
已有的領域概念提取方法基于設定的閾值判斷詞語是否是領域專有的概念。這些方法首先對每一詞語計算一個反映領域專屬程度的統計數值,然后通過判斷該數值是否高于事先設定的閾值來判斷該詞語是否領域概念。專屬程度越高,越有可能成為領域概念。較高的閾值會使提取結果的準確率較高,但是召回率較低;反之亦然。這樣一來,準確率和召回率是一對互相矛盾的性能指標,較高的準確率必然導致較低的召回率;而且,人工設定閾值所得到的結果會由于領域專家的知識結構等主觀因素造成領域概念提取結果不夠客觀。
發明內容
本發明要解決的技術問題是提供一種提取領域本體概念的詞語排除法,解決領域概念提取過程中需要手工設定閾值的困難。
本發明采用排除領域非專有概念的方法自動提取領域概念集合。在給定領域語料中出現的詞語的集合時,該方法能夠依據由前景語料(即領域語料)和背景語料(即非領域語料)組成的文本語料庫自動地獲取領域概念集合。該方法首先基于前景語料和背景語料計算詞語的領域相關度,排除領域不相關的詞語;然后基于領域語料計算剩余詞語的領域均勻度,排除在領域語料中分布不均勻的詞語,即尚未在領域中得到穩定地使用的詞語。如此,得到領域概念集合。
本發明所述排除法分兩步刪除領域非專有的概念,得到領域概念集合。具體步驟如下:
(1)計算詞語與領域的領域相關度,刪除詞語集合中與領域不相關的詞語。
領域相關度衡量詞語與領域是否相關及其相關的程度。詞語t與領域Dk的領域相關度計算公式為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連理工大學,未經大連理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010502040.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:重放方法和設備
- 下一篇:用于有軌車輛的儲能器系統





