[發(fā)明專(zhuān)利]文本過(guò)濾系統(tǒng)及方法有效
| 申請(qǐng)?zhí)枺?/td> | 201110440801.6 | 申請(qǐng)日: | 2011-12-23 |
| 公開(kāi)(公告)號(hào): | CN102521402A | 公開(kāi)(公告)日: | 2012-06-27 |
| 發(fā)明(設(shè)計(jì))人: | 閆俊英 | 申請(qǐng)(專(zhuān)利權(quán))人: | 上海電機(jī)學(xué)院 |
| 主分類(lèi)號(hào): | G06F17/30 | 分類(lèi)號(hào): | G06F17/30;G06F17/27 |
| 代理公司: | 上海思微知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 31237 | 代理人: | 鄭瑋 |
| 地址: | 200240 *** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本 過(guò)濾 系統(tǒng) 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種文本過(guò)濾系統(tǒng)及方法,特別是涉及一種基于本體的自適應(yīng)的文本過(guò)濾系統(tǒng)及方法。
背景技術(shù)
在信息檢索及過(guò)濾領(lǐng)域中,文本過(guò)濾一直是一個(gè)研究熱點(diǎn)。目前國(guó)內(nèi)外文獻(xiàn)中已經(jīng)有不少采用不同的方法來(lái)實(shí)現(xiàn)文本過(guò)濾。
在目前的文本過(guò)濾方法中,主要包括基于遺傳算法的模糊聚類(lèi)文本過(guò)濾方法、采用改進(jìn)的分類(lèi)算法的文本過(guò)濾方法、采用自適應(yīng)學(xué)習(xí)過(guò)濾算法的文本過(guò)濾方法以及只采用本體的文本過(guò)濾方法。其中,采用基于遺傳算法的模糊聚類(lèi)方法,對(duì)種群中的每個(gè)個(gè)體,進(jìn)行模糊相似矩陣直接聚類(lèi),然后根據(jù)聚類(lèi)的結(jié)果采用所提出的適應(yīng)度函數(shù)來(lái)評(píng)估種群的適應(yīng)度,然而這種文本過(guò)濾方法過(guò)濾的精度取決于聚類(lèi)的效果,對(duì)于用戶(hù)的過(guò)濾需求不能進(jìn)行很好的表達(dá);采用改進(jìn)的分類(lèi)算法的文本過(guò)濾方法對(duì)不良文本信息進(jìn)行過(guò)濾,從數(shù)據(jù)層的角度改進(jìn)傳統(tǒng)的KNN算法,其缺點(diǎn)同樣是對(duì)用戶(hù)的需求表達(dá)不夠精確;采用自適應(yīng)學(xué)習(xí)過(guò)濾算法的文本過(guò)濾方法,能夠通過(guò)訓(xùn)練樣板集的方式來(lái)進(jìn)行自適應(yīng)學(xué)習(xí),能夠調(diào)整過(guò)濾模型,但其對(duì)于用戶(hù)的過(guò)濾需求的表達(dá)同樣不夠精確;只采用本體的文本過(guò)濾方法,過(guò)濾的精度取決于本體的建立,如果本體庫(kù)創(chuàng)建不夠精確的話,將會(huì)大大影響文本過(guò)濾的精度。
綜上所述,可知先前技術(shù)之文本過(guò)濾方法中存在對(duì)用戶(hù)的需求表達(dá)不夠精確或本體庫(kù)創(chuàng)建不夠精確影響文本過(guò)濾精度的問(wèn)題,因此實(shí)有必要提出改進(jìn)的技術(shù)手段,來(lái)解決此一問(wèn)題
發(fā)明內(nèi)容
為克服上述現(xiàn)有技術(shù)存在的不足,本發(fā)明的主要目的在于提供一種文本過(guò)濾系統(tǒng)及方法,其不僅能夠準(zhǔn)確表達(dá)用戶(hù)的過(guò)濾模型,并能夠在過(guò)濾時(shí)進(jìn)行自主學(xué)習(xí),調(diào)整采用本體表達(dá)的用戶(hù)過(guò)濾模型,并能夠動(dòng)態(tài)調(diào)整過(guò)濾閾值,以達(dá)到更好的過(guò)濾效果。
為達(dá)上述及其它目的,本發(fā)明提供一種文本過(guò)濾系統(tǒng),至少包括:
本體庫(kù)建立模組,用于根據(jù)用戶(hù)的過(guò)濾需求建立本體庫(kù);
自適應(yīng)學(xué)習(xí)模組,通過(guò)對(duì)一組過(guò)濾樣本進(jìn)行訓(xùn)練學(xué)習(xí)以對(duì)該本體庫(kù)建立模組建立的本體庫(kù)動(dòng)態(tài)調(diào)整,使其逐漸接近于用戶(hù)的過(guò)濾需求;以及
文本過(guò)濾模組,通過(guò)對(duì)待過(guò)濾文本進(jìn)行預(yù)處理、抽取特征詞集及相似度匹配處理后,獲得該待過(guò)濾文本與本體的相關(guān)度,并根據(jù)該相關(guān)度對(duì)該待過(guò)濾文本進(jìn)行過(guò)濾。
進(jìn)一步地,該本體庫(kù)建立模組至少包括:
領(lǐng)域確定模組,用于根據(jù)用戶(hù)的過(guò)濾需求,明確要構(gòu)建的本體所覆蓋的領(lǐng)域和范圍以確定本體的領(lǐng)域與范圍;
收集分析模組,用于在本體所涉及的領(lǐng)域范圍內(nèi)進(jìn)行信息的收集和分析,明確重點(diǎn)概念和概念之間的關(guān)系,并且用精確的術(shù)語(yǔ)表達(dá);以及
本體框架建立模組,用于根據(jù)收集分析結(jié)果建立本體框架。
進(jìn)一步地,該本體采取三元組Topic(C,P,S)來(lái)表示,其中,C表示由過(guò)濾領(lǐng)域內(nèi)的名詞概念抽象出來(lái),具有相同屬性和行為結(jié)構(gòu)的概念類(lèi)的集合;P描述概念和關(guān)系的屬性;S表示類(lèi)之間的結(jié)構(gòu)關(guān)系,如父類(lèi)、子類(lèi)等。
進(jìn)一步地,該自適應(yīng)學(xué)習(xí)模組采用增量式迭代方法對(duì)一組過(guò)濾樣本進(jìn)行訓(xùn)練學(xué)習(xí)以對(duì)該本體庫(kù)建立模組建立的本體庫(kù)動(dòng)態(tài)調(diào)整。
進(jìn)一步地,該文本過(guò)濾模組至少包括
預(yù)處理模組,用于對(duì)該待過(guò)濾文本進(jìn)行去除停用詞操作;
特征詞集抽取模組,用于對(duì)該待過(guò)濾文本抽取出表達(dá)文本內(nèi)容的特征詞,根據(jù)特征詞不同的位置及頻率賦予相應(yīng)的權(quán)重,并將相同的特征詞權(quán)重值相加,形成文本特征詞集;
相似度計(jì)算模組,根據(jù)向量空間模型,計(jì)算出該待過(guò)濾文本與該本體的相關(guān)度;以及
過(guò)濾模組,根據(jù)該相關(guān)度與一設(shè)定的閾值,對(duì)該待過(guò)濾文本進(jìn)行過(guò)濾。
進(jìn)一步地,該過(guò)濾模組對(duì)該帶過(guò)濾文本中低于該閾值的文本進(jìn)行過(guò)濾。
為達(dá)上述及其他目的,本發(fā)明提供一種文本過(guò)濾方法,其至少包括如下步驟:
根據(jù)用戶(hù)的過(guò)濾需求建立本體庫(kù);
對(duì)一組過(guò)濾樣本進(jìn)行訓(xùn)練學(xué)習(xí)以對(duì)所建立的本體庫(kù)動(dòng)態(tài)調(diào)整,使其逐漸接近于用戶(hù)的過(guò)濾需求;以及
對(duì)待過(guò)濾文本進(jìn)行預(yù)處理、抽取特征詞集及相似度匹配處理后,獲得該待過(guò)濾文本與本體的相關(guān)度,并根據(jù)該相關(guān)度對(duì)該待過(guò)濾文本進(jìn)行過(guò)濾。
進(jìn)一步地,該根據(jù)用戶(hù)的過(guò)濾需求建立本體庫(kù)的步驟至少還包括如下步驟:
根據(jù)用戶(hù)的過(guò)濾需求,明確要構(gòu)建的本體所覆蓋的領(lǐng)域和范圍確定本體的領(lǐng)域與范圍;
在本體所涉及的領(lǐng)域范圍內(nèi)進(jìn)行信息的收集和分析,明確重點(diǎn)概念和概念之間的關(guān)系,并且用精確的術(shù)語(yǔ)表達(dá);以及
根據(jù)收集分析結(jié)果建立本體框架。
進(jìn)一步地,對(duì)該本體庫(kù)動(dòng)態(tài)調(diào)整采用增量式迭代方法實(shí)現(xiàn)。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于上海電機(jī)學(xué)院,未經(jīng)上海電機(jī)學(xué)院許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110440801.6/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 用于微米過(guò)濾、超級(jí)過(guò)濾和納米過(guò)濾的過(guò)濾裝置
- 過(guò)濾裝置、過(guò)濾件及過(guò)濾方法
- 過(guò)濾膜、過(guò)濾單元、過(guò)濾系統(tǒng)以及過(guò)濾方法
- 過(guò)濾介質(zhì)、過(guò)濾元件和過(guò)濾組件
- 過(guò)濾裝置、過(guò)濾系統(tǒng)和過(guò)濾方法
- 過(guò)濾模組、過(guò)濾裝置及過(guò)濾方法
- 過(guò)濾介質(zhì)、過(guò)濾元件和過(guò)濾方法
- 過(guò)濾裝置、過(guò)濾系統(tǒng)及過(guò)濾方法
- 過(guò)濾材料、過(guò)濾組件、過(guò)濾器及過(guò)濾方法
- 過(guò)濾裝置(水過(guò)濾)
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





