[發(fā)明專利]文本過濾系統(tǒng)及方法有效
| 申請?zhí)枺?/td> | 201210553556.4 | 申請日: | 2012-12-18 |
| 公開(公告)號: | CN103034726A | 公開(公告)日: | 2013-04-10 |
| 發(fā)明(設(shè)計)人: | 閆俊英 | 申請(專利權(quán))人: | 上海電機學(xué)院 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 上海思微知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 31237 | 代理人: | 鄭瑋 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本 過濾 系統(tǒng) 方法 | ||
1.一種文本過濾系統(tǒng),至少包括:
過濾模型建立模組,用于根據(jù)用戶的過濾需求建立過濾模型;
自適應(yīng)學(xué)習(xí)模組,通過對一組過濾樣本進行訓(xùn)練,形成接近用戶的過濾需求的本體庫;以及
文本過濾模組,抽取待過濾文本的特征詞,然后識別特征詞中的實體,并進行實體關(guān)系的抽取,形成待過濾文本的實體關(guān)系對向量,計算過濾模型與待過濾文本的相似度,對高于相似度閾值的文本進行過濾。
2.如權(quán)利要求1所述的一種文本過濾系統(tǒng),其特征在于:該過濾模型建立模組首先根據(jù)用戶的過濾需求,明確要構(gòu)建的本體所覆蓋的領(lǐng)域和范圍確定本體的領(lǐng)域與范圍,然后在本體所涉及的領(lǐng)域范圍內(nèi)進行信息的收集和分析,明確重點概念和概念之間的關(guān)系,并且用精確的術(shù)語表達出來,最后建立本體框架。
3.如權(quán)利要求2所述的一種文本過濾系統(tǒng),其特征在于:該本體采取三元組Topic(C,P,S)來表示,其中C表示由過濾領(lǐng)域內(nèi)的名詞概念抽象出來,具有相同屬性和行為結(jié)構(gòu)的概念類的集合,采用向量空間模型來表示;P描述概念和關(guān)系的屬性;S表示類之間的結(jié)構(gòu)關(guān)系。
4.如權(quán)利要求1所述的一種文本過濾系統(tǒng),其特征在于:該自適應(yīng)學(xué)習(xí)模組用增量式迭代方法對該組過濾樣本進行訓(xùn)練。
5.如權(quán)利要求1所述的一種文本過濾系統(tǒng),其特征在于,該文本過濾模組還包括:
預(yù)處理模組,對待過濾文本進行去除停用詞等預(yù)處理操作;
特征詞抽取模組,將經(jīng)過預(yù)處理的待過濾文本抽取出表達文本內(nèi)容的特征向量;
實體關(guān)系抽取模組,首先根據(jù)所抽取的頁面的特征向量,識別實體,并基于啟發(fā)式規(guī)則,獲取實體的上下文特征,然后構(gòu)建上下文特征詞的特征向量,采用應(yīng)用特征頻度函數(shù)對特征項進行數(shù)值化,采用k-means的聯(lián)合聚類算法,來實現(xiàn)實體對的聚類,最后對實體對的關(guān)系進行標(biāo)注;以及
相似度計算模組,計算待過濾文本與過濾模型的相似度,對高于相似度閾值的文本進行過濾。
6.如權(quán)利要求5所述的一種文本過濾系統(tǒng),其特征在于:該相似度計算模組根據(jù)向量空間模型,將兩特征向量夾角的余弦值表示它們的相似度,計算出待過濾文本與過濾模型的相似度,根據(jù)設(shè)定的閾值,將超過閾值的文本過濾掉。
7.一種文本過濾方法,包括如下步驟:
步驟一,根據(jù)用戶的過濾需求建立過濾模型;
步驟二,通過對一組過濾樣本進行訓(xùn)練,形成接近用戶的過濾需求的本體庫;以及
步驟三,抽取待過濾文本的特征詞,然后識別特征詞中的實體,并進行實體關(guān)系的抽取,形成待過濾文本的實體關(guān)系對向量,計算過濾模型與待過濾文本的相似度,對高于相似度閾值的文本進行過濾。
8.如權(quán)利要求7所述的一種文本過濾方法,其特征在于,步驟三包括如下步驟:
對待過濾文本進行去除停用詞等預(yù)處理操作;
將經(jīng)過預(yù)處理的待過濾文本抽取出表達文本內(nèi)容的特征向量;
進行實體關(guān)系的抽取,形成待過濾文本的實體關(guān)系對向量;以及
計算待過濾文本與過濾模型的相似度,對高于相似度閾值的文本進行過濾。
9.如權(quán)利要求8所述的一種文本過濾方法,其特征在于,該實體關(guān)系的抽取步驟還包括如下步驟:
首先根據(jù)所抽取的頁面的特征向量,識別實體;
基于啟發(fā)式規(guī)則,獲取實體的上下文特征;
構(gòu)建上下文特征詞的特征向量,采用應(yīng)用特征頻度函數(shù)對特征項進行數(shù)值化;
采用k-means的聯(lián)合聚類算法,來實現(xiàn)實體對的聚類;以及
對實體對的關(guān)系進行標(biāo)注。這樣待過濾文本就采用標(biāo)注過關(guān)系的實體對及關(guān)系的向量來表示。
10.如權(quán)利要求7所述的一種文本過濾方法,其特征在于,步驟一還包括如下步驟:
根據(jù)用戶的過濾需求,明確要構(gòu)建的本體所覆蓋的領(lǐng)域和范圍確定本體的領(lǐng)域與范圍;
在本體所涉及的領(lǐng)域范圍內(nèi)進行信息的收集和分析,明確重點概念和概念之間的關(guān)系,并且用精確的術(shù)語表達出來;以及
建立本體框架。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海電機學(xué)院,未經(jīng)上海電機學(xué)院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210553556.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:雙余度伺服電機霍爾傳感器供電電路
- 下一篇:一種附著力促進劑及其制備方法





