日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發(fā)明專利]文本過濾系統(tǒng)及方法有效

專利信息
申請?zhí)枺?/td> 201210553556.4 申請日: 2012-12-18
公開(公告)號: CN103034726A 公開(公告)日: 2013-04-10
發(fā)明(設(shè)計)人: 閆俊英 申請(專利權(quán))人: 上海電機學(xué)院
主分類號: G06F17/30 分類號: G06F17/30;G06F17/27
代理公司: 上海思微知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 31237 代理人: 鄭瑋
地址: 200240 *** 國省代碼: 上海;31
權(quán)利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關(guān)鍵詞: 文本 過濾 系統(tǒng) 方法
【說明書】:

技術(shù)領(lǐng)域

發(fā)明關(guān)于一種文本過濾系統(tǒng)及方法,特別是涉及一種基于實體關(guān)系抽取的文本過濾系統(tǒng)及方法。

背景技術(shù)

文本過濾多年來一直受到較多的關(guān)注,在信息檢索與過濾等領(lǐng)域中有較好的應(yīng)用前景。目前的文本過濾方法中,有的采用基于遺傳算法的模糊聚類方法,對種群中的每個個體進行模糊相似矩陣直接聚類,然后根據(jù)聚類的結(jié)果采用所提出的適應(yīng)度函數(shù)來評估種群的適應(yīng)度,然而,這種方法過濾的精度取決于聚類的效果,對于用戶的過濾需求不能進行很好的表達。有些采用改進的分類算法對不良文本信息進行過濾,從數(shù)據(jù)層的角度改進傳統(tǒng)的KNN算法,同樣對用戶的需求表達不夠精確。有些過濾方法也采用本體的來表達用戶的過濾需求,但是對于表達用戶過濾需求的本體庫的建立方法不夠精確,這將大大影響文本的過濾精度。有些過濾算法采用了自適應(yīng)學(xué)習(xí)的文本過濾,雖然可以對用戶的過濾模板進行自適應(yīng)的學(xué)習(xí),能夠調(diào)整過濾模型,但是采用特征向量的方式不能精確表達用戶的過濾需求。

發(fā)明內(nèi)容

為克服上述現(xiàn)有技術(shù)的不足,本發(fā)明之目的在于提供一種文本過濾系統(tǒng)及方法,其依據(jù)建立的用戶的過濾模型,通過實體關(guān)系抽取,準(zhǔn)確表達過濾的文本的特征,可以提高過濾的精確性。

為達上述及其它目的,本發(fā)明提出一種文本過濾系統(tǒng),至少包括:

過濾模型建立模組,用于根據(jù)用戶的過濾需求建立過濾模型;

自適應(yīng)學(xué)習(xí)模組,通過對一組過濾樣本進行訓(xùn)練,形成接近用戶的過濾需求的本體庫;以及

文本過濾模組,抽取待過濾文本的特征詞,然后識別特征詞中的實體,并進行實體關(guān)系的抽取,形成待過濾文本的實體關(guān)系對向量,計算過濾模型與待過濾文本的相似度,對高于相似度閾值的文本進行過濾。

進一步地,該過濾模型建立模組首先根據(jù)用戶的過濾需求,明確要構(gòu)建的本體所覆蓋的領(lǐng)域和范圍確定本體的領(lǐng)域與范圍,然后在本體所涉及的領(lǐng)域范圍內(nèi)進行信息的收集和分析,明確重點概念和概念之間的關(guān)系,并且用精確的術(shù)語表達出來,最后建立本體框架。

進一步地,該本體采取三元組Topic(C,P,S)來表示,其中C表示由過濾領(lǐng)域內(nèi)的名詞概念抽象出來,具有相同屬性和行為結(jié)構(gòu)的概念類的集合,采用向量空間模型來表示;P描述概念和關(guān)系的屬性;S表示類之間的結(jié)構(gòu)關(guān)系。

進一步地,該自適應(yīng)學(xué)習(xí)模組用增量式迭代方法對該組過濾樣本進行訓(xùn)練。

進一步地,該文本過濾模組還包括:

預(yù)處理模組,對待過濾文本進行去除停用詞等預(yù)處理操作;

特征詞抽取模組,將經(jīng)過預(yù)處理的待過濾文本抽取出表達文本內(nèi)容的特征向量;

實體關(guān)系抽取模組,首先根據(jù)所抽取的頁面的特征向量,識別實體,并基于啟發(fā)式規(guī)則,獲取實體的上下文特征,然后構(gòu)建上下文特征詞的特征向量,采用應(yīng)用特征頻度函數(shù)對特征項進行數(shù)值化,采用k-means的聯(lián)合聚類算法,來實現(xiàn)實體對的聚類,最后對實體對的關(guān)系進行標(biāo)注;以及

相似度計算模組,計算待過濾文本與過濾模型的相似度,對高于相似度閾值的文本進行過濾。

進一步地,該相似度計算模組根據(jù)向量空間模型,將兩特征向量夾角的余弦值表示它們的相似度,計算出待過濾文本與過濾模型的相似度,根據(jù)設(shè)定的閾值,將超過閾值的文本過濾掉。

為達到上述及其他目的,本發(fā)明還提供一種文本過濾方法,包括如下步驟:

步驟一,根據(jù)用戶的過濾需求建立過濾模型;

步驟二,通過對一組過濾樣本進行訓(xùn)練,形成接近用戶的過濾需求的本體庫;以及

步驟三,抽取待過濾文本的特征詞,然后識別特征詞中的實體,并進行實體關(guān)系的抽取,形成待過濾文本的實體關(guān)系對向量,計算過濾模型與待過濾文本的相似度,對高于相似度閾值的文本進行過濾。

8、如權(quán)利要求7所述的一種文本過濾方法,其特征在于,步驟三包括如下步驟:

對待過濾文本進行去除停用詞等預(yù)處理操作;

將經(jīng)過預(yù)處理的待過濾文本抽取出表達文本內(nèi)容的特征向量;

進行實體關(guān)系的抽取,形成待過濾文本的實體關(guān)系對向量;以及

計算待過濾文本與過濾模型的相似度,對高于相似度閾值的文本進行過濾。

進一步地,該實體關(guān)系的抽取步驟還包括如下步驟:

首先根據(jù)所抽取的頁面的特征向量,識別實體;

基于啟發(fā)式規(guī)則,獲取實體的上下文特征;

構(gòu)建上下文特征詞的特征向量,采用應(yīng)用特征頻度函數(shù)對特征項進行數(shù)值化;

采用k-means的聯(lián)合聚類算法,來實現(xiàn)實體對的聚類;以及

下載完整專利技術(shù)內(nèi)容需要扣除積分,VIP會員可以免費下載。

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海電機學(xué)院,未經(jīng)上海電機學(xué)院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201210553556.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書;

2、支持發(fā)明專利 、實用新型專利、外觀設(shè)計專利(升級中);

3、專利數(shù)據(jù)每周兩次同步更新,支持Adobe PDF格式;

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖流程工藝圖技術(shù)構(gòu)造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關(guān)于我們 尋求報道 投稿須知 廣告合作 版權(quán)聲明 網(wǎng)站地圖 友情鏈接 企業(yè)標(biāo)識 聯(lián)系我們

鉆瓜專利網(wǎng)在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 蜜臀久久99精品久久一区二区| 亚洲1区在线观看| 日韩无遮挡免费视频| 日韩亚洲精品在线观看| 欧美一级日韩一级| 日本精品一二区| 久久九九亚洲| 久久久久亚洲精品视频| 国产白嫩美女在线观看| 999久久国精品免费观看网站| 欧美日韩中文字幕一区二区三区 | 国产91在| 夜夜嗨av一区二区三区中文字幕| 欧美乱战大交xxxxx| 精品videossexfreeohdbbw| 91精品久久久久久| 精品国产伦一区二区三区| 亚洲精品乱码久久久久久写真| 99视频国产在线| 国产精品视频一区二区二| 日日噜噜夜夜狠狠| 亚洲精品456| 色噜噜狠狠色综合中文字幕 | 国产黄色一区二区三区| 国产69精品久久久久777| 免费观看又色又爽又刺激的视频 | 欧美精品亚洲一区| 欧美精品国产一区| 国产精品你懂的在线| 中文字幕欧美一区二区三区 | 国产精品视频一区二区二| 91精品国产综合久久福利软件| 欧美三级午夜理伦三级中视频| 久久99精品国产| 视频一区二区中文字幕| 日韩精品999| 婷婷嫩草国产精品一区二区三区| 99精品区| 亚洲精品国产一区| 久久综合久久自在自线精品自| 四虎国产永久在线精品| 日韩精品午夜视频| 鲁丝一区二区三区免费| 91夜夜夜| 久久夜色精品国产亚洲| 国产日韩欧美91| 最新日韩一区| 456亚洲精品| 亚洲精品久久久久不卡激情文学| 国产91一区二区在线观看| 一区二区三区国产精华| 狠狠色噜噜狠狠狠狠黑人| 日韩欧美中文字幕一区| 一级黄色片免费网站| 久久人做人爽一区二区三区小说 | 三上悠亚亚洲精品一区二区| 国产精品日韩高清伦字幕搜索| 亚洲国产一区二区久久久777| 国产午夜亚洲精品午夜鲁丝片 | 91精品丝袜国产高跟在线| 精品国产一二三四区| 午夜裸体性播放免费观看| 午夜私人影院在线观看| 国产高清一区在线观看| 日韩av中文字幕第一页| 国产一区在线免费观看| 亚洲乱码av一区二区三区中文在线:| 中文字幕日韩精品在线| 91超碰caoporm国产香蕉| 免费91麻豆精品国产自产在线观看| 精品999久久久| 狠狠躁夜夜av| 人人澡超碰碰97碰碰碰| 国产一级在线免费观看| 国产一区二区精品在线| 精品国产伦一区二区三区免费| 欧美日韩一区在线视频| 国产精品亚洲精品一区二区三区| 99精品欧美一区二区三区美图| 国产主播啪啪| 香港三日本三级三级三级| 97一区二区国产好的精华液|