[發明專利]基于微內容相似度的反垃圾方法無效
| 申請號: | 200710156184.0 | 申請日: | 2007-10-23 |
| 公開(公告)號: | CN101159704A | 公開(公告)日: | 2008-04-09 |
| 發明(設計)人: | 胡天磊;陳珂;陳剛;壽黎但;汪源 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | H04L12/58 | 分類號: | H04L12/58;G06F17/30 |
| 代理公司: | 杭州求是專利事務所有限公司 | 代理人: | 林懷禹 |
| 地址: | 310027浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 內容 相似 垃圾 方法 | ||
1.一種基于微內容相似度的反垃圾方法,其特征在于該方法的步驟如下:
1)通過將人為鑒別為垃圾的評論進行聚類,產生聚類垃圾文件,包含多個垃圾分類;
2)使用垃圾鑒別器根據聚類垃圾文件,對未知評論進行鑒別。
2.根據權利要求1所述的一種基于微內容相似度的反垃圾方法,其特征在于:所述的垃圾評論聚類過程為:
1)聚類垃圾文件初始為空;
2)當有新的人為鑒別為垃圾的垃圾評論時,如下條件與步驟有選擇性的加入到聚類垃圾文件中:
第一步從所有垃圾分類中任意選取一條垃圾評論作為該垃圾分類的典型樣本;
第二步新垃圾評論與所有垃圾分類的典型樣本進行相似度評分;
第三步對第二步中與未知垃圾擁有最高相似度評分的典型樣本所在垃圾分類,新垃圾評論評論再與該垃圾分類所有垃圾進行評論相似度評分,計算其最高相似度得分;
第四步若最高相似度得分小于某指定閾值,則將新垃圾評論作為一個新的垃圾分類;否則若最高相似度得分小于另一指定閾值則將新垃圾評論評論加入到已有分類中作為一個新垃圾評論樣本;否則忽略該新垃圾評論。
3.根據權利要求1所述的一種基于微內容相似度的反垃圾方法,其特征在于:所述的垃圾鑒別算法步驟如下:
1)從所有垃圾分類中任意選取一條垃圾評論作為該垃圾分類的典型樣本;
2)未知評論與所有垃圾分類的典型樣本進行相似度評分;
3)對上步驟2)中與未知垃圾擁有最高相似度評分的典型樣本所在垃圾分類,未知評論再與該垃圾分類所有垃圾進行評論相似度評分;
4)若未知評論與上述垃圾分類所有垃圾進行評論相似度評分的最大值超過指定閾值,則判定未知評論為垃圾評論。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710156184.0/1.html,轉載請聲明來源鉆瓜專利網。
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





