[發明專利]一種基于模糊遺傳算法的中文WEB信息過濾方法無效
| 申請號: | 201010106201.1 | 申請日: | 2010-02-05 |
| 公開(公告)號: | CN101814086A | 公開(公告)日: | 2010-08-25 |
| 發明(設計)人: | 劉培玉;朱振方 | 申請(專利權)人: | 山東師范大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06N3/12 |
| 代理公司: | 濟南圣達專利商標事務所有限公司 37221 | 代理人: | 鄧建國 |
| 地址: | 250014 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 模糊 遺傳 算法 中文 web 信息 過濾 方法 | ||
技術領域
本發明涉及一種基于模糊遺傳算法的中文WEB信息過濾方法,屬于信息技術領域。
背景技術
WEB信息過濾是文本過濾的重要組成部分,TREC-9給出了文本過濾的任務定義:根據給定的用戶需求,建立一個能從文本流中自動選擇最相關文本的過濾模板,隨著文本流的逐漸進入,過濾系統自動地接受或拒絕文本,并得到文本相關與否的反饋信息,根據反饋信息自適應地修正過濾模板。
基于內容的過濾是當前WEB信息過濾研究的主要方向,而在基于內容的信息過濾中,最重要的是應用學習算法構建過濾模板。當前常用的算法包括貝葉斯、支持向量機以及KNN等,這些分類和學習算法在一定程度上解決了模板生成過程中的學習問題,但是同時也存在一些問題。例如,貝葉斯分類系統無法在沒有先驗知識的情況下加以判斷和學習,KNN存在當數據量較大時分類精度和最近的樣本點數量取值依賴較大、實施起來復雜度仍然相對較大、單分類器分類精度較低等問題,支持向量機存在訓練速度慢、時間空間復雜度大的問題等問題。
遺傳算法是一種能在全局范圍內產生最優解的搜索算法,它具有自組織、自適應、自學習的特性,而且不受搜索空間限制、不需要其他輔助信息,因此被廣泛應用于解決優化問題。而文本分類和信息過濾中模板的生成過程就是一個不斷尋找能夠代表相關類別的特征集的過程。
發明內容
本發明的目的就是為了解決上述問題,把遺傳算法引入到WEB信息過濾系統中用于訓練分類器,進行WEB信息過濾,建立基于遺傳算法的WEB信息過濾模型,并針對模型中存在的問題提出了一系列改進措施。
為實現上述目的,本發明采用了如下技術方案:
一種基于模糊遺傳算法的中文WEB信息過濾方法,所述過濾方法包括如下步驟:
Step1:利用文本訓練集,采用模糊遺傳算法簡歷過濾模版;
Step3:截獲WEB數據包并解析,從中提取有效的文本信息;
Step3:在獲取的有效信息中提取網址信息、關鍵詞信息以及中文域名信息,應用URL過濾、關鍵詞過濾以及內容過濾的三層過濾機制進行初步過濾,返回過濾結果;
Step4:將Step3中沒有過濾掉的文本信息進行切詞、去除停用詞處理,并進行層次聚類,形成基于概念的邏輯段落,并計算特征項權重;
Step5:將Step4中的處理結果同過濾模版進行相似度匹配,返回匹配結果;
Step6:綜合Step3的過濾結果以及Step5中的匹配結果,確定所獲取的文本信息是否被過濾,并將為被過濾的信息重組為網頁提交給用戶,將被過濾的網頁信息直接屏蔽;
Step7:利用反饋方法、結合用戶反饋信息對過濾結果進行反饋,更新Step5中的過濾模板。
所述Step1中的模糊遺傳算法主要分為種群、交叉率和變異率的模糊調整三部分:
(1)使用下面的公式計算個體壽命:
其中lifetime[i]為第i個個體的壽命,fitness[i],avg_fitness,best_fitness和wrost_fitness分別為第t代中第i個個體的適應度值、種群的平均適應度值、種群中最好適應度值和種群中最差適應度值,max_lifetime,min_lifetime分別為在允許空間內預先設置的最大壽命、最小壽命;
(2)使用下面的公式動態計算交叉率:
temp=max_pc×2(-t/max_gen)
其中temp是中間計算變量,max_gen是預設的最大進化代數,max_pc,min_pc分別是預設的最大交叉率、最小交叉率,t是當前進化代數;
(3)使用下面的公式計算變異率:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東師范大學,未經山東師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010106201.1/2.html,轉載請聲明來源鉆瓜專利網。





