[發(fā)明專利]文本過濾系統(tǒng)及方法有效

申請?zhí)枺?/td>	201110440801.6	申請日：	2011-12-23
公開（公告）號：	CN102521402A	公開（公告）日：	2012-06-27
發(fā)明（設(shè)計）人：	閆俊英	申請（專利權(quán)）人：	上海電機學院
主分類號：	G06F17/30	分類號：	G06F17/30;G06F17/27
代理公司：	上海思微知識產(chǎn)權(quán)代理事務所(普通合伙) 31237	代理人：	鄭瑋
地址：	200240 ***	國省代碼：	上海;31
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	文本過濾系統(tǒng) 方法
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種文本過濾系統(tǒng)，至少包括：

本體庫建立模組，用于根據(jù)用戶的過濾需求建立本體庫；

自適應學習模組，通過對一組過濾樣本進行訓練學習以對該本體庫建立模組建立的本體庫動態(tài)調(diào)整，使其逐漸接近于用戶的過濾需求；以及

文本過濾模組，通過對待過濾文本進行預處理、抽取特征詞集及相似度匹配處理后，獲得該待過濾文本與本體的相關(guān)度，并根據(jù)該相關(guān)度對該待過濾文本進行過濾。

2.如權(quán)利要求1所述的文本過濾系統(tǒng)，其特征在于，該本體庫建立模組至少包括：

領(lǐng)域確定模組，用于根據(jù)用戶的過濾需求，明確要構(gòu)建的本體所覆蓋的領(lǐng)域和范圍以確定本體的領(lǐng)域與范圍；

收集分析模組，用于在本體所涉及的領(lǐng)域范圍內(nèi)進行信息的收集和分析，明確重點概念和概念之間的關(guān)系，并且用精確的術(shù)語表達；以及

本體框架建立模組，用于根據(jù)收集分析結(jié)果建立本體框架。

3.如權(quán)利要求2所述的文本過濾系統(tǒng)，其特征在于：該本體采取三元組Topic(C，P，S)來表示，其中，C表示由過濾領(lǐng)域內(nèi)的名詞概念抽象出來，具有相同屬性和行為結(jié)構(gòu)的概念類的集合；P描述概念和關(guān)系的屬性；S表示類之間的結(jié)構(gòu)關(guān)系，如父類、子類等。

4.如權(quán)利要求1所述的文本過濾系統(tǒng)，其特征在于：該自適應學習模組采用增量式迭代方法對一組過濾樣本進行訓練學習以對該本體庫建立模組建立的本體庫動態(tài)調(diào)整。

5.如權(quán)利要求1所述的文本過濾系統(tǒng)，其特征在于，該文本過濾模組至少包括：

預處理模組，用于對該待過濾文本進行去除停用詞操作；

特征詞集抽取模組，用于對該待過濾文本抽取出表達文本內(nèi)容的特征詞，根據(jù)特征詞不同的位置及頻率賦予相應的權(quán)重，并將相同的特征詞權(quán)重值相加，形成文本特征詞集；

相似度計算模組，根據(jù)向量空間模型，計算出該待過濾文本與該本體的相關(guān)度；以及

過濾模組，根據(jù)該相關(guān)度與一設(shè)定的閾值，對該待過濾文本進行過濾。

6.如權(quán)利要求5所述的文本過濾系統(tǒng)，其特征在于：該過濾模組對該帶過濾文本中低于該閾值的文本進行過濾。

7.一種文本過濾方法，至少包括如下步驟：

根據(jù)用戶的過濾需求建立本體庫；

對一組過濾樣本進行訓練學習以對所建立的本體庫動態(tài)調(diào)整，使其逐漸接近于用戶的過濾需求；以及

對待過濾文本進行預處理、抽取特征詞集及相似度匹配處理后，獲得該待過濾文本與本體的相關(guān)度，并根據(jù)該相關(guān)度對該待過濾文本進行過濾。

8.如權(quán)利要求7所述的一種文本過濾方法，其特征在于，該根據(jù)用戶的過濾需求建立本體庫的步驟至少還包括如下步驟：

根據(jù)用戶的過濾需求，明確要構(gòu)建的本體所覆蓋的領(lǐng)域和范圍確定本體的領(lǐng)域與范圍；

在本體所涉及的領(lǐng)域范圍內(nèi)進行信息的收集和分析，明確重點概念和概念之間的關(guān)系，并且用精確的術(shù)語表達；以及

根據(jù)收集分析結(jié)果建立本體框架。

9.如權(quán)利要求7所述的一種文本過濾方法，其特征在于：對該本體庫動態(tài)調(diào)整采用增量式迭代方法實現(xiàn)。

10.如權(quán)利要求7所述的一種文本過濾方法，其特征在于，對該待過濾文本進行過濾的步驟至少還包括如下步驟：

對待過濾文本進行去除停用詞操作；

抽取出該待過濾文本中表達文本內(nèi)容的特征詞，根據(jù)特征詞不同的位置及頻率賦予相應的權(quán)重，并將相同的特征詞權(quán)重值相加，形成文本特征詞集；

根據(jù)向量空間模型，計算出該待過濾文本與本體的相關(guān)度；以及根據(jù)一設(shè)定的閾值與該相關(guān)度的關(guān)系對該待過濾文本進行過濾。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海電機學院，未經(jīng)上海電機學院許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201110440801.6/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：用于水處理的防堵型噴淋出藥裝置
下一篇：一種制備復合消毒劑的發(fā)生設(shè)備

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06F 電數(shù)字數(shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復雜數(shù)學運算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索；及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計算機輔助設(shè)計

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】