[發(fā)明專利]文本過濾系統(tǒng)及方法有效
| 申請?zhí)枺?/td> | 201110440801.6 | 申請日: | 2011-12-23 |
| 公開(公告)號: | CN102521402A | 公開(公告)日: | 2012-06-27 |
| 發(fā)明(設(shè)計)人: | 閆俊英 | 申請(專利權(quán))人: | 上海電機學院 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 上海思微知識產(chǎn)權(quán)代理事務所(普通合伙) 31237 | 代理人: | 鄭瑋 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本 過濾 系統(tǒng) 方法 | ||
1.一種文本過濾系統(tǒng),至少包括:
本體庫建立模組,用于根據(jù)用戶的過濾需求建立本體庫;
自適應學習模組,通過對一組過濾樣本進行訓練學習以對該本體庫建立模組建立的本體庫動態(tài)調(diào)整,使其逐漸接近于用戶的過濾需求;以及
文本過濾模組,通過對待過濾文本進行預處理、抽取特征詞集及相似度匹配處理后,獲得該待過濾文本與本體的相關(guān)度,并根據(jù)該相關(guān)度對該待過濾文本進行過濾。
2.如權(quán)利要求1所述的文本過濾系統(tǒng),其特征在于,該本體庫建立模組至少包括:
領(lǐng)域確定模組,用于根據(jù)用戶的過濾需求,明確要構(gòu)建的本體所覆蓋的領(lǐng)域和范圍以確定本體的領(lǐng)域與范圍;
收集分析模組,用于在本體所涉及的領(lǐng)域范圍內(nèi)進行信息的收集和分析,明確重點概念和概念之間的關(guān)系,并且用精確的術(shù)語表達;以及
本體框架建立模組,用于根據(jù)收集分析結(jié)果建立本體框架。
3.如權(quán)利要求2所述的文本過濾系統(tǒng),其特征在于:該本體采取三元組Topic(C,P,S)來表示,其中,C表示由過濾領(lǐng)域內(nèi)的名詞概念抽象出來,具有相同屬性和行為結(jié)構(gòu)的概念類的集合;P描述概念和關(guān)系的屬性;S表示類之間的結(jié)構(gòu)關(guān)系,如父類、子類等。
4.如權(quán)利要求1所述的文本過濾系統(tǒng),其特征在于:該自適應學習模組采用增量式迭代方法對一組過濾樣本進行訓練學習以對該本體庫建立模組建立的本體庫動態(tài)調(diào)整。
5.如權(quán)利要求1所述的文本過濾系統(tǒng),其特征在于,該文本過濾模組至少包括:
預處理模組,用于對該待過濾文本進行去除停用詞操作;
特征詞集抽取模組,用于對該待過濾文本抽取出表達文本內(nèi)容的特征詞,根據(jù)特征詞不同的位置及頻率賦予相應的權(quán)重,并將相同的特征詞權(quán)重值相加,形成文本特征詞集;
相似度計算模組,根據(jù)向量空間模型,計算出該待過濾文本與該本體的相關(guān)度;以及
過濾模組,根據(jù)該相關(guān)度與一設(shè)定的閾值,對該待過濾文本進行過濾。
6.如權(quán)利要求5所述的文本過濾系統(tǒng),其特征在于:該過濾模組對該帶過濾文本中低于該閾值的文本進行過濾。
7.一種文本過濾方法,至少包括如下步驟:
根據(jù)用戶的過濾需求建立本體庫;
對一組過濾樣本進行訓練學習以對所建立的本體庫動態(tài)調(diào)整,使其逐漸接近于用戶的過濾需求;以及
對待過濾文本進行預處理、抽取特征詞集及相似度匹配處理后,獲得該待過濾文本與本體的相關(guān)度,并根據(jù)該相關(guān)度對該待過濾文本進行過濾。
8.如權(quán)利要求7所述的一種文本過濾方法,其特征在于,該根據(jù)用戶的過濾需求建立本體庫的步驟至少還包括如下步驟:
根據(jù)用戶的過濾需求,明確要構(gòu)建的本體所覆蓋的領(lǐng)域和范圍確定本體的領(lǐng)域與范圍;
在本體所涉及的領(lǐng)域范圍內(nèi)進行信息的收集和分析,明確重點概念和概念之間的關(guān)系,并且用精確的術(shù)語表達;以及
根據(jù)收集分析結(jié)果建立本體框架。
9.如權(quán)利要求7所述的一種文本過濾方法,其特征在于:對該本體庫動態(tài)調(diào)整采用增量式迭代方法實現(xiàn)。
10.如權(quán)利要求7所述的一種文本過濾方法,其特征在于,對該待過濾文本進行過濾的步驟至少還包括如下步驟:
對待過濾文本進行去除停用詞操作;
抽取出該待過濾文本中表達文本內(nèi)容的特征詞,根據(jù)特征詞不同的位置及頻率賦予相應的權(quán)重,并將相同的特征詞權(quán)重值相加,形成文本特征詞集;
根據(jù)向量空間模型,計算出該待過濾文本與本體的相關(guān)度;以及根據(jù)一設(shè)定的閾值與該相關(guān)度的關(guān)系對該待過濾文本進行過濾。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海電機學院,未經(jīng)上海電機學院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110440801.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





