[發明專利]過濾非訓練語言的內容中的貝葉斯擔保校驗以減少假陽性有效
| 申請號: | 200810135499.1 | 申請日: | 2008-08-12 |
| 公開(公告)號: | CN101374122A | 公開(公告)日: | 2009-02-25 |
| 發明(設計)人: | 肖恩·庫利 | 申請(專利權)人: | 賽門鐵克公司 |
| 主分類號: | H04L12/58 | 分類號: | H04L12/58;G06Q10/00 |
| 代理公司: | 北京律誠同業知識產權代理有限公司 | 代理人: | 徐金國 |
| 地址: | 美國加利*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 過濾 訓練 語言 內容 中的 貝葉斯 擔保 校驗 減少 陽性 | ||
1.一種用于在貝葉斯過濾中減少假分類的計算機實施的方法,所述方法包括如下步驟:
在貝葉斯過濾的范圍中,分析要被分類的至少一個文檔的內容;
確定所述至少一個文檔中是否已知大于閾值量的內容;以及
響應所確定的結果來分類所述文檔,
其中,所述確定所述至少一個文檔中是否已知大于閾值量的內容進一步包括執行來自下述步驟組的至少一個步驟,所述步驟組包括:確定至少一個文檔中由貝葉斯過濾訓練已知的詞匯的百分比;以及確定在至少一個文檔的貝葉斯過濾中使用的最大校正值的百分比,以及
其中,所述響應所確定的結果來分類所述文檔進一步包括執行來自下述步驟組的步驟,包括:響應大于閾值量的文檔內容是未知的確定,分類所述文檔為未知類型;以及響應少于閾值量的文檔內容是未知的確定,根據標準貝葉斯過濾的結果分類所述文檔。
2.根據權利要求1所述的方法,其中所述確定在至少一個文檔的貝葉斯過濾中使用的最大校正值的百分比進一步包括:
作為至少一個文檔中零計數值和若干詞匯的變量計算至少一個文檔的最大校正值;以及
作為至少一個文檔的貝葉斯過濾中使用的校正值和至少一個文檔的最大校正值的變量計算至少一個文檔的貝葉斯過濾中使用的最大校正值的百分比。
3.根據權利要求2所述的方法,其中所述零計數值進一步包括貝葉斯過濾中對貝葉斯訓練中沒有遇到的詞匯所使用的特定值,該方法進一步包括:
以訓練數據集中的詞匯數與常數的乘積被一除后的自然對數計算零計數值。
4.根據權利要求2所述的方法,其中所述在至少一個文檔的貝葉斯過濾中使用的校正值進一步包括:
特定值,經計算以避免任何單個詞匯不適當地影響至少一個文檔的分類。
5.根據權利要求1所述的方法,其中所述至少一個文檔包括至少一個電郵信息,以及貝葉斯過濾分類所述至少一個電郵信息為歸屬于下述類別組的單個類別,該類別組包括:
垃圾;
合法電郵;以及
未知。
6.一種在貝葉斯過濾中減少假分類的計算機系統,所述計算機系統包括:
用于在貝葉斯過濾的范圍中,分析要被分類的至少一個文檔的內容的裝置;
用于確定所述至少一個文檔中是否已知大于閾值量的內容的裝置;以及
用于響應所確定的結果來分類所述文檔的裝置,
其中,所述用于確定所述至少一個文檔中是否已知大于閾值量的內容的裝置進一步包括用于執行來自下述步驟組的至少一個步驟的裝置,所述步驟組包括:確定至少一個文檔中由貝葉斯過濾訓練已知的詞匯的百分比;以及確定在至少一個文檔的貝葉斯過濾中使用的最大校正值的百分比,以及
其中,所述用于響應所確定的結果來分類所述文檔的裝置進一步包括用于執行來自下述步驟組的步驟的裝置,包括:響應大于閾值量的文檔內容是未知的確定,分類所述文檔為未知類型;以及響應少于閾值量的文檔內容是未知的確定,根據標準貝葉斯過濾的結果分類所述文檔。
7.根據權利要求6所述的計算機系統,其中用于執行確定在至少一個文檔的貝葉斯過濾中使用的最大校正值的百分比的步驟的裝置進一步包括:
用于作為至少一個文檔中零計數值和若干詞匯的變量計算至少一個文檔的最大校正值的裝置;以及
用于作為至少一個文檔的貝葉斯過濾中使用的校正值和至少一個文檔的最大校正值的變量計算至少一個文檔的貝葉斯過濾中使用的最大校正值的百分比的裝置。
8.根據權利要求7所述的計算機系統,其中所述零計數值進一步包括貝葉斯過濾中對于貝葉斯訓練中沒有遇到的詞匯使用的特定值,所述計算機系統進一步包括:
用于以訓練數據集中的詞匯數與常數的乘積被一除后的自然對數計算零計數值的裝置。
9.根據權利要求6所述的計算機系統,其中所述至少一個文檔包括至少一個電郵信息,以及所述計算機系統進一步包括:用于通過貝葉斯過濾分類所述至少一個電郵信息為歸屬于下述類別組的單個類別的裝置,所述類別組包括:
垃圾;
合法電郵;以及
未知。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于賽門鐵克公司,未經賽門鐵克公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810135499.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于獨立于照明器進行顏色測量的設備和方法
- 下一篇:一種天文望遠鏡數碼轉接器
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





