[發(fā)明專利]文本過濾系統(tǒng)及方法有效
| 申請?zhí)枺?/td> | 201210553556.4 | 申請日: | 2012-12-18 | 
| 公開(公告)號: | CN103034726A | 公開(公告)日: | 2013-04-10 | 
| 發(fā)明(設(shè)計)人: | 閆俊英 | 申請(專利權(quán))人: | 上海電機學(xué)院 | 
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 | 
| 代理公司: | 上海思微知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 31237 | 代理人: | 鄭瑋 | 
| 地址: | 200240 *** | 國省代碼: | 上海;31 | 
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 | 
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本 過濾 系統(tǒng) 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明關(guān)于一種文本過濾系統(tǒng)及方法,特別是涉及一種基于實體關(guān)系抽取的文本過濾系統(tǒng)及方法。
背景技術(shù)
文本過濾多年來一直受到較多的關(guān)注,在信息檢索與過濾等領(lǐng)域中有較好的應(yīng)用前景。目前的文本過濾方法中,有的采用基于遺傳算法的模糊聚類方法,對種群中的每個個體進行模糊相似矩陣直接聚類,然后根據(jù)聚類的結(jié)果采用所提出的適應(yīng)度函數(shù)來評估種群的適應(yīng)度,然而,這種方法過濾的精度取決于聚類的效果,對于用戶的過濾需求不能進行很好的表達。有些采用改進的分類算法對不良文本信息進行過濾,從數(shù)據(jù)層的角度改進傳統(tǒng)的KNN算法,同樣對用戶的需求表達不夠精確。有些過濾方法也采用本體的來表達用戶的過濾需求,但是對于表達用戶過濾需求的本體庫的建立方法不夠精確,這將大大影響文本的過濾精度。有些過濾算法采用了自適應(yīng)學(xué)習(xí)的文本過濾,雖然可以對用戶的過濾模板進行自適應(yīng)的學(xué)習(xí),能夠調(diào)整過濾模型,但是采用特征向量的方式不能精確表達用戶的過濾需求。
發(fā)明內(nèi)容
為克服上述現(xiàn)有技術(shù)的不足,本發(fā)明之目的在于提供一種文本過濾系統(tǒng)及方法,其依據(jù)建立的用戶的過濾模型,通過實體關(guān)系抽取,準(zhǔn)確表達過濾的文本的特征,可以提高過濾的精確性。
為達上述及其它目的,本發(fā)明提出一種文本過濾系統(tǒng),至少包括:
過濾模型建立模組,用于根據(jù)用戶的過濾需求建立過濾模型;
自適應(yīng)學(xué)習(xí)模組,通過對一組過濾樣本進行訓(xùn)練,形成接近用戶的過濾需求的本體庫;以及
文本過濾模組,抽取待過濾文本的特征詞,然后識別特征詞中的實體,并進行實體關(guān)系的抽取,形成待過濾文本的實體關(guān)系對向量,計算過濾模型與待過濾文本的相似度,對高于相似度閾值的文本進行過濾。
進一步地,該過濾模型建立模組首先根據(jù)用戶的過濾需求,明確要構(gòu)建的本體所覆蓋的領(lǐng)域和范圍確定本體的領(lǐng)域與范圍,然后在本體所涉及的領(lǐng)域范圍內(nèi)進行信息的收集和分析,明確重點概念和概念之間的關(guān)系,并且用精確的術(shù)語表達出來,最后建立本體框架。
進一步地,該本體采取三元組Topic(C,P,S)來表示,其中C表示由過濾領(lǐng)域內(nèi)的名詞概念抽象出來,具有相同屬性和行為結(jié)構(gòu)的概念類的集合,采用向量空間模型來表示;P描述概念和關(guān)系的屬性;S表示類之間的結(jié)構(gòu)關(guān)系。
進一步地,該自適應(yīng)學(xué)習(xí)模組用增量式迭代方法對該組過濾樣本進行訓(xùn)練。
進一步地,該文本過濾模組還包括:
預(yù)處理模組,對待過濾文本進行去除停用詞等預(yù)處理操作;
特征詞抽取模組,將經(jīng)過預(yù)處理的待過濾文本抽取出表達文本內(nèi)容的特征向量;
實體關(guān)系抽取模組,首先根據(jù)所抽取的頁面的特征向量,識別實體,并基于啟發(fā)式規(guī)則,獲取實體的上下文特征,然后構(gòu)建上下文特征詞的特征向量,采用應(yīng)用特征頻度函數(shù)對特征項進行數(shù)值化,采用k-means的聯(lián)合聚類算法,來實現(xiàn)實體對的聚類,最后對實體對的關(guān)系進行標(biāo)注;以及
相似度計算模組,計算待過濾文本與過濾模型的相似度,對高于相似度閾值的文本進行過濾。
進一步地,該相似度計算模組根據(jù)向量空間模型,將兩特征向量夾角的余弦值表示它們的相似度,計算出待過濾文本與過濾模型的相似度,根據(jù)設(shè)定的閾值,將超過閾值的文本過濾掉。
為達到上述及其他目的,本發(fā)明還提供一種文本過濾方法,包括如下步驟:
步驟一,根據(jù)用戶的過濾需求建立過濾模型;
步驟二,通過對一組過濾樣本進行訓(xùn)練,形成接近用戶的過濾需求的本體庫;以及
步驟三,抽取待過濾文本的特征詞,然后識別特征詞中的實體,并進行實體關(guān)系的抽取,形成待過濾文本的實體關(guān)系對向量,計算過濾模型與待過濾文本的相似度,對高于相似度閾值的文本進行過濾。
8、如權(quán)利要求7所述的一種文本過濾方法,其特征在于,步驟三包括如下步驟:
對待過濾文本進行去除停用詞等預(yù)處理操作;
將經(jīng)過預(yù)處理的待過濾文本抽取出表達文本內(nèi)容的特征向量;
進行實體關(guān)系的抽取,形成待過濾文本的實體關(guān)系對向量;以及
計算待過濾文本與過濾模型的相似度,對高于相似度閾值的文本進行過濾。
進一步地,該實體關(guān)系的抽取步驟還包括如下步驟:
首先根據(jù)所抽取的頁面的特征向量,識別實體;
基于啟發(fā)式規(guī)則,獲取實體的上下文特征;
構(gòu)建上下文特征詞的特征向量,采用應(yīng)用特征頻度函數(shù)對特征項進行數(shù)值化;
采用k-means的聯(lián)合聚類算法,來實現(xiàn)實體對的聚類;以及
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海電機學(xué)院,未經(jīng)上海電機學(xué)院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210553556.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:雙余度伺服電機霍爾傳感器供電電路
 - 下一篇:一種附著力促進劑及其制備方法
 





