[發明專利]一種網絡不良文本內容的細粒度語義檢測方法有效
| 申請號: | 201210034888.1 | 申請日: | 2012-02-16 |
| 公開(公告)號: | CN102609407A | 公開(公告)日: | 2012-07-25 |
| 發明(設計)人: | 曾劍平 | 申請(專利權)人: | 復旦大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 上海正旦專利代理有限公司 31200 | 代理人: | 陸飛;盛志范 |
| 地址: | 200433 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網絡 不良 文本 內容 細粒度 語義 檢測 方法 | ||
1.一種網絡不良文本內容的細粒度語義檢測方法,其特征在于具體步驟為:
?一、場景的語義話題模型的建立:
(1)設定需要檢測的不良信息場景,選擇與該場景相關的句子,構造描述該場景的文本集;
(2)采用分詞方法將文本集中的各個句子分割成獨立的詞序列,同時去除停用詞,從而將整個文本集中的文本用單個詞語來描述;
(3)?為文本集構造詞語頻率矩陣,矩陣的行表示詞語,列表示文檔,矩陣中的元素表示詞語在該文檔中出現的頻率,矩陣的大小為詞語的總數×文檔總數;
(4)?設定話題數,并對詞語頻率矩陣使用LDA模型對這個文本集進行話題提取,得到文本集的語義話題描述;
二、基于語義話題模型的細粒度檢測
(1)?對于待檢測的Web頁面,利用Html頁面解析技術進行頁面信息內容提取;
(2)?對提取后的文本信息,進行句子的識別和提取,并對每個句子進行如下處理:
(2-1)以話題模型的詞匯表為維度,以詞頻為權重,建立句子的空間向量;
(2-2)計算句子向量相對于話題模型的似然值;
(2-3)判定似然值是否超過設定的檢測敏感度,如果是則將該句子標注為不良;否則良性;
(2-4)獲得下一個句子,并重復執行步驟(2-1)-(2-4),直到所有的句子都處理完畢。
2.如權利要求1所述的網絡不良文本內容的語義檢測方法,其特征在于:所構造的訓練文本集具有如下特點:文本集包含一個文本文件,其中的每一行是一個獨立的句子;要求選擇的句子應盡可能地描述所設定的場景的各個方面。
3.如權利要求1所述的網絡不良文本內容的語義檢測方法,其特征在于:將模型參數記錄到模型參數文件中,同時將所建立的詞語表也保存到模型的詞語文件中;這兩類文件共同構成模型文件。
4.如權利要求1所述的網絡不良文本內容的語義檢測方法,其特征在于:在進行實際檢測之前,從模型文件中讀取模型參數和模型詞語表,在內存中建立已經訓練好的LDA模型。
5.如權利要求1所述的網絡不良文本內容的語義檢測方法,其特征在于:對Web頁面中的文本信息,以句子為單位進行識別、提取和檢測判斷。
6.如權利要求1所述的網絡不良文本內容的語義檢測方法,其特征在于:按照下面公式計算句子S相對于話題模型的似然值,并作為與敏感度閾值相比較的依據:
其中,N是句子中所包含的詞語總數,N1是不在模型詞語表中的詞語個數,?是模型參數,V是句子S的詞頻向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于復旦大學,未經復旦大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210034888.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:四氣囊氣體交換式按摩乳罩
- 下一篇:紙張類處理裝置及紙張類處理方法
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





