[發(fā)明專利]一種基于詞綴的用于對未知詞進行語義分類的系統(tǒng)有效
| 申請?zhí)枺?/td> | 201210361148.9 | 申請日: | 2012-09-25 |
| 公開(公告)號: | CN102902665A | 公開(公告)日: | 2013-01-30 |
| 發(fā)明(設(shè)計)人: | 趙涓涓;強彥;裴博;楊建峰 | 申請(專利權(quán))人: | 太原理工大學(xué) |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 030024 *** | 國省代碼: | 山西;14 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 詞綴 用于 未知 進行 語義 分類 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明屬于自然語言處理技術(shù)領(lǐng)域,涉及一種基于詞綴的用于對未知詞進行語義分類的系統(tǒng)。
背景技術(shù)
通常,用戶能夠先獲得描述單詞的某些字典。這些字典可以描述單詞的出處(例如,通常在哪一段話中出現(xiàn)的等等)、語義類(例如人、事件、情感等等)、含義和例句等。對于那些沒有出現(xiàn)在字典中的詞我們稱為“未知詞”。一般而言,未知詞可以來源于某些新詞。
在文本信息處理中,未知詞的出現(xiàn)常常會給用戶帶來麻煩,由于它的信息(例如例句、語義類等)的不足。
為解決上述麻煩,一種做法是用戶在未知詞出現(xiàn)時更新字典。但是這一做法在一般情況下很困難,原因如下:(1)由于存在著很多的信息源(報紙、網(wǎng)絡(luò)等等),因此無法保證用戶在一未知詞首次出現(xiàn)時就捕捉到該詞;(2)由于字典是標(biāo)準(zhǔn)化的,對于任一未知詞都需要經(jīng)過許多專家的審核、同意后才能寫入字典,因此這需要一段時間。
鑒于此,對未知詞進行語義類別的猜測就成了一項很有必要的工作。本發(fā)明將關(guān)注語義類別信息。也就是,我們將試圖猜測未知詞的語義類別。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服上述技術(shù)缺陷,提供一種基于詞綴的用于對未知詞進行語義分類的系統(tǒng)。
其技術(shù)方案為:
一種基于詞綴的用于對未知詞進行語義分類的系統(tǒng),包括:
輸入模塊:該模塊主要用于接收來自系統(tǒng)外部由用戶輸入的未知詞;
未知詞詞綴分析模塊:對于系統(tǒng)接收到的任何一個未知詞,將其按構(gòu)詞規(guī)則分別拆分成兩個部分,每個部分都可作為詞綴;
相似詞選擇模塊:對于所輸入的未知詞,在同義詞詞林中查找與未知詞具有相同詞綴部分的詞;
內(nèi)容部分相似度計算模塊:根據(jù)相似詞詞林字典中的語義分類,計算各個相似詞與該未知詞內(nèi)容部分的語義的相似度;
相似詞分析模塊:分析各個相似詞的構(gòu)詞方式,針對其內(nèi)容部分與其整體部分語義類的關(guān)系;
存儲字典:用于存儲所輸入的未知詞和查找到的各個相似詞集合;
相似度排列模塊:根據(jù)各相似詞的構(gòu)詞方式基于同義詞詞林字典篩選出未知詞的語義類;
輸出模塊:用于輸出該未知詞的語義類。
該系統(tǒng)完全基于未知詞的內(nèi)容部分與相似詞內(nèi)容部分的相似度,其詞綴部分對其語義類別沒有影響的情況。
所述未知詞語義類的分類是完全基于同義詞詞林字典。
該系統(tǒng)完全基于相似詞與未知詞是由其內(nèi)容部分擴展而來的情況。
本發(fā)明所述系統(tǒng)針對某一未知詞和其相似詞內(nèi)容部分相似度的計算完全基于同義詞詞林相似度的計算。
與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果為:
本發(fā)明的方法基于詞綴研究未知詞的構(gòu)詞規(guī)律,進而分析它的語義類別。也可以作為一個獨立的語法或語義成分識別系統(tǒng)對中文或其他基于字符的未知詞的語義分類,同時也可以與其他語言成分識別系統(tǒng)相結(jié)合,對其他系統(tǒng)輸出的結(jié)果進行分析,提高原有系統(tǒng)的分析精度。本發(fā)明尤其適用于對漢語未知詞的分析,根據(jù)本發(fā)明實現(xiàn)的未知詞語義分類系統(tǒng)獲得了良好的分析效果。
附圖說明
圖1是本發(fā)明基于詞綴的用于對未知詞進行語義分類的系統(tǒng)結(jié)構(gòu)框圖;
圖2是示出本發(fā)明實施例1基于詞綴的未知詞語義分類的操作流程圖;
圖3是示出本發(fā)明實施例2基于詞綴的未知詞語義分類的操作流程圖;
圖4是示出本發(fā)明實施例3基于詞綴的未知詞語義分類的操作流出圖。
具體實施方式
下面結(jié)合附圖與具體實施方式對本發(fā)明的技術(shù)方案作進一步詳細地說明。
參照圖1,一種基于詞綴的用于對未知詞進行語義分類的系統(tǒng),包括:
輸入模塊:該模塊主要用于接收來自系統(tǒng)外部由用戶輸入的未知詞;
未知詞詞綴分析模塊:對于系統(tǒng)接收到的任何一個未知詞,將其按構(gòu)詞規(guī)則分別拆分成兩個部分,每個部分都可作為詞綴;
相似詞選擇模塊:對于所輸入的未知同,在同義詞詞林中查找與未知詞具有相同部分的詞;
內(nèi)容部分相似度計算模塊:根據(jù)相似詞詞林字典中的語義分類,計算各個相似詞與該未知詞內(nèi)容部分的語義的相似度;
存儲字典:用于存儲所輸入的未知詞和查找到的各個相似詞集合;
相似度排列模塊:根據(jù)各相似詞的構(gòu)詞方式基于同義詞詞林字典篩選出未知詞的語義類;
輸出模塊:用于輸出該未知詞的語義類。
實施例1
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于太原理工大學(xué),未經(jīng)太原理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210361148.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:眼內(nèi)引線器
- 下一篇:一種視力訓(xùn)練保健眼鏡





