[發(fā)明專利]一種基于模糊遺傳算法的中文WEB信息過濾方法無效
| 申請?zhí)枺?/td> | 201010106201.1 | 申請日: | 2010-02-05 |
| 公開(公告)號: | CN101814086A | 公開(公告)日: | 2010-08-25 |
| 發(fā)明(設(shè)計)人: | 劉培玉;朱振方 | 申請(專利權(quán))人: | 山東師范大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06N3/12 |
| 代理公司: | 濟南圣達專利商標(biāo)事務(wù)所有限公司 37221 | 代理人: | 鄧建國 |
| 地址: | 250014 山*** | 國省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 模糊 遺傳 算法 中文 web 信息 過濾 方法 | ||
1.一種基于模糊遺傳算法的中文WEB信息過濾方法,其特征在于:所述過濾方法包括如下步驟:
Step1:利用文本訓(xùn)練集,采用模糊遺傳算法簡歷過濾模版;
Step2:截獲WEB數(shù)據(jù)包并解析,從中提取有效的文本信息;
Step3:在獲取的有效信息中提取網(wǎng)址信息、關(guān)鍵詞信息以及中文域名信息,應(yīng)用URL過濾、關(guān)鍵詞過濾以及內(nèi)容過濾的三層過濾機制進行初步過濾,返回過濾結(jié)果;
Step4:將Step3中沒有過濾掉的文本信息進行切詞、去除停用詞處理,并進行層次聚類,形成基于概念的邏輯段落,并計算特征項權(quán)重;
Step5:將Step4中的處理結(jié)果同過濾模版進行相似度匹配,返回匹配結(jié)果;
Step6:綜合Step3的過濾結(jié)果以及Step5中的匹配結(jié)果,確定所獲取的文本信息是否被過濾,并將為被過濾的信息重組為網(wǎng)頁提交給用戶,將被過濾的網(wǎng)頁信息直接屏蔽;
Step7:利用反饋方法、結(jié)合用戶反饋信息對過濾結(jié)果進行反饋,更新Step5中的過濾模板。
2.一種基于模糊遺傳算法的中文WEB信息過濾方法,其特征在于:所述Step1中的模糊遺傳算法主要分為種群、交叉率和變異率的模糊調(diào)整三部分:
(1)使用下面的公式計算個體壽命:
其中l(wèi)ifetime[i]為第i個個體的壽命,fitness[i],avg_fitness,best_fitness和wrost_fitness分別為第t代中第i個個體的適應(yīng)度值、種群的平均適應(yīng)度值、種群中最好適應(yīng)度值和種群中最差適應(yīng)度值,max_lifetime,min_lifetime分別為在允許空間內(nèi)預(yù)先設(shè)置的最大壽命、最小壽命;
(2)使用下面的公式動態(tài)計算交叉率:
temp=max_pc×2(-t/max?gen)
其中temp是中間計算變量,max_gen是預(yù)設(shè)的最大進化代數(shù),max_pc,min_pc分別是預(yù)設(shè)的最大交叉率、最小交叉率,t是當(dāng)前進化代數(shù);
(3)使用下面的公式計算變異率:
、
其中X,temp是中間計算變量,max_fitness,fitness[i]及max_gen分別是當(dāng)前代中最大適應(yīng)度值、待變異個體的適應(yīng)度值及預(yù)設(shè)的最大代數(shù),max_pm、min_pm分別是預(yù)設(shè)的最大變異率和最小變異率,t為當(dāng)前進化代數(shù),pm為當(dāng)前代中個體的變異率。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于山東師范大學(xué),未經(jīng)山東師范大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010106201.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





