[發(fā)明專利]一種網(wǎng)絡(luò)不良文本內(nèi)容的細(xì)粒度語義檢測方法有效
| 申請?zhí)枺?/td> | 201210034888.1 | 申請日: | 2012-02-16 |
| 公開(公告)號: | CN102609407A | 公開(公告)日: | 2012-07-25 |
| 發(fā)明(設(shè)計(jì))人: | 曾劍平 | 申請(專利權(quán))人: | 復(fù)旦大學(xué) |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 上海正旦專利代理有限公司 31200 | 代理人: | 陸飛;盛志范 |
| 地址: | 200433 *** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 網(wǎng)絡(luò) 不良 文本 內(nèi)容 細(xì)粒度 語義 檢測 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明屬于文本內(nèi)容過濾技術(shù)領(lǐng)域,具體涉及一種網(wǎng)絡(luò)不良文本信息內(nèi)容的檢測方法。
背景技術(shù)
目前互聯(lián)網(wǎng)已經(jīng)成為一種創(chuàng)造信息和共享信息的主要途徑和空間,而隨著各種網(wǎng)絡(luò)論壇和社會化交互媒體的不斷出現(xiàn),每天都有大量的文本信息產(chǎn)生,如各種新聞報(bào)道、產(chǎn)品介紹、各種網(wǎng)絡(luò)評論等等。而這其中,大量的不良文本信息內(nèi)容充滿各種網(wǎng)絡(luò)空間。色情信息、暴力信息、網(wǎng)絡(luò)謾罵等不良信息的出現(xiàn)對青少年的健康成長造成了很大的危害,并且對于上班族而言,不斷地瀏覽這類信息,也導(dǎo)致工作效率的低下。因此,對于不良文本信息內(nèi)容的檢測已經(jīng)成為互聯(lián)網(wǎng)信息過濾的一個(gè)重要需求。而目前有多種檢測過濾方法,可以實(shí)現(xiàn)網(wǎng)絡(luò)不良信息內(nèi)容的過濾?;玖鞒淌?,對要檢測的Web頁面進(jìn)行信息提取,采用檢測手段進(jìn)行內(nèi)容分析,根據(jù)設(shè)定的靈敏度進(jìn)行結(jié)果的判定。而檢測手段主要有關(guān)鍵詞方法、文本內(nèi)容分類方法、以及智能信息內(nèi)容分析方法。
由于不良文本內(nèi)容的制造者為了避免信息內(nèi)容被計(jì)算機(jī)系統(tǒng)過濾,通常采用各種變換手段來實(shí)現(xiàn)他們的目的。而這其中最難于處理的是對具有語義不良性的文本內(nèi)容的識別,也就因此成為文本內(nèi)容過濾的主要技術(shù)發(fā)展方向。雖然在檢測手段上人們進(jìn)行了比較廣泛的研究,也有不少的技術(shù)手段可以用來進(jìn)行網(wǎng)絡(luò)文本內(nèi)容過濾,但是在面對語義不良內(nèi)容、以及如何處理語義信息內(nèi)容等問題方面,現(xiàn)有方法存在一定問題和不足,導(dǎo)致現(xiàn)實(shí)中的應(yīng)用并不能令人滿意。具體而言,所存在的問題列舉如下:
1.依賴于一個(gè)關(guān)鍵詞列表,如果是事先設(shè)定的,則難于適應(yīng)內(nèi)容創(chuàng)造者的各種形式上的變換;如果在檢測中自行更新,則容易導(dǎo)致列表過大,并且大量并非不良的詞匯被加入到列表中,導(dǎo)致產(chǎn)生大量的誤檢。但不管是事先設(shè)定還是自行更新,在面對語義不良內(nèi)容的識別上都難于有好的效果。
2.采用分類思想來實(shí)現(xiàn)語義內(nèi)容檢測的方法需要事先建立分類模型,而模型的建立依賴于所提供的正類和反類的訓(xùn)練文本集。而這兩類文本集在實(shí)際應(yīng)用中并不容易構(gòu)造,從而導(dǎo)致檢測性能低下。
3.采用LSA(潛在語義分析)[1]?之類的簡單語義分析技術(shù)的檢測方法雖然考慮到語義識別,但是在語義空間的建立以及語義提取過程中,空間維數(shù)設(shè)定等主要方面存在難于解決的問題,使得在面對靈活多變的文本內(nèi)容檢測上性能不高。
4.在詞匯、句子等細(xì)粒度層面上進(jìn)行內(nèi)容過濾,對于Web信息共享是非常關(guān)鍵的。而分類方法、簡單的語義的分析方法在這方面存在一定缺陷。
由此可見,實(shí)現(xiàn)和提升不良文本內(nèi)容的語義檢測能力的同時(shí),實(shí)現(xiàn)細(xì)粒度檢測是非常關(guān)鍵的?,F(xiàn)有方法在詞匯設(shè)定、訓(xùn)練文本設(shè)定以及語義空間構(gòu)建上存在不足,尚難于滿足對不良語義文本內(nèi)容檢測過濾的要求。
發(fā)明內(nèi)容
本發(fā)明的目的主要是針對現(xiàn)有各種文本信息內(nèi)容過濾方法在進(jìn)行語義識別中存在的不足,提出一種網(wǎng)絡(luò)不良文本內(nèi)容的細(xì)粒度語義檢測方法。
本發(fā)明提出的網(wǎng)絡(luò)不良文本內(nèi)容的細(xì)粒度語義檢測方法,圍繞所引入的不良信息場景,構(gòu)造以獨(dú)立句子為基本單元的訓(xùn)練文本集,從而運(yùn)用概率話題模型建立場景的數(shù)學(xué)描述。將待檢測的Web頁面進(jìn)行信息內(nèi)容提取,對文本信息進(jìn)行句子識別,并基于所建立的概率話題模型,計(jì)算每個(gè)句子在該模型下的條件概率,在設(shè)定的內(nèi)容檢測敏感度下完成細(xì)粒度的語義檢測。具體步驟如下:
1、場景的語義話題模型的建立。
(1)設(shè)定需要檢測的不良信息場景,選擇與該場景相關(guān)的句子,構(gòu)造描述該場景的文本集。
(2)采用現(xiàn)有的分詞方法[2]將文本集中的各個(gè)句子分割成獨(dú)立的詞序列,同時(shí)去除停用詞,從而將整個(gè)文本集中的文本用單個(gè)詞語來描述。
(3)為文本集構(gòu)造詞語頻率矩陣,矩陣的行表示詞語,列表示文檔,矩陣中的元素表示詞語在該文檔中出現(xiàn)的頻率。矩陣的大小為詞語的總數(shù)×文檔總數(shù)。
(4)設(shè)定話題數(shù),并對詞語頻率矩陣使用LDA(隱狄利克雷分配)[3]?模型在這個(gè)空間中對這個(gè)文本集進(jìn)行話題提取,得到文本集的語義話題描述。
2、基于語義話題模型的細(xì)粒度檢測。
(1)對于待檢測的Web頁面,利用Html頁面解析技術(shù)進(jìn)行頁面信息內(nèi)容提取[4]。
(2)對提取后的文本信息,進(jìn)行句子的識別和提取,并對每個(gè)句子進(jìn)行如下處理:
(2-1)以話題模型的詞匯表為維度,以詞頻為權(quán)重,建立句子的空間向量;
(2-2)計(jì)算句子向量相對于話題模型的似然值;
(2-3)判定似然值是否超過設(shè)定的檢測敏感度,如果是則將該句子標(biāo)注為不良;否則良性;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于復(fù)旦大學(xué),未經(jīng)復(fù)旦大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210034888.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:四氣囊氣體交換式按摩乳罩
- 下一篇:紙張類處理裝置及紙張類處理方法
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點(diǎn)網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲介質(zhì)及移動終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 內(nèi)容再現(xiàn)系統(tǒng)、內(nèi)容提供方法、內(nèi)容再現(xiàn)裝置、內(nèi)容提供裝置、內(nèi)容再現(xiàn)程序和內(nèi)容提供程序
- 內(nèi)容記錄系統(tǒng)、內(nèi)容記錄方法、內(nèi)容記錄設(shè)備和內(nèi)容接收設(shè)備
- 內(nèi)容服務(wù)系統(tǒng)、內(nèi)容服務(wù)器、內(nèi)容終端及內(nèi)容服務(wù)方法
- 內(nèi)容分發(fā)系統(tǒng)、內(nèi)容分發(fā)裝置、內(nèi)容再生終端及內(nèi)容分發(fā)方法
- 內(nèi)容發(fā)布、內(nèi)容獲取的方法、內(nèi)容發(fā)布裝置及內(nèi)容傳播系統(tǒng)
- 內(nèi)容提供裝置、內(nèi)容提供方法、內(nèi)容再現(xiàn)裝置、內(nèi)容再現(xiàn)方法
- 內(nèi)容傳輸設(shè)備、內(nèi)容傳輸方法、內(nèi)容再現(xiàn)設(shè)備、內(nèi)容再現(xiàn)方法、程序及內(nèi)容分發(fā)系統(tǒng)
- 內(nèi)容發(fā)送設(shè)備、內(nèi)容發(fā)送方法、內(nèi)容再現(xiàn)設(shè)備、內(nèi)容再現(xiàn)方法、程序及內(nèi)容分發(fā)系統(tǒng)
- 內(nèi)容再現(xiàn)裝置、內(nèi)容再現(xiàn)方法、內(nèi)容再現(xiàn)程序及內(nèi)容提供系統(tǒng)
- 內(nèi)容記錄裝置、內(nèi)容編輯裝置、內(nèi)容再生裝置、內(nèi)容記錄方法、內(nèi)容編輯方法、以及內(nèi)容再生方法





