[發(fā)明專利]對網(wǎng)絡(luò)文本與手機(jī)短信進(jìn)行不良內(nèi)容識別的方法無效
| 申請?zhí)枺?/td> | 201010167065.7 | 申請日: | 2010-05-06 |
| 公開(公告)號: | CN101876968A | 公開(公告)日: | 2010-11-03 |
| 發(fā)明(設(shè)計(jì))人: | 邱錫鵬;劉力;金城;張玥杰;薛向陽 | 申請(專利權(quán))人: | 復(fù)旦大學(xué) |
| 主分類號: | G06F17/22 | 分類號: | G06F17/22;G06F17/27 |
| 代理公司: | 上海正旦專利代理有限公司 31200 | 代理人: | 陸飛;盛志范 |
| 地址: | 20043*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 網(wǎng)絡(luò) 文本 手機(jī)短信 進(jìn)行 不良 內(nèi)容 識別 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明屬于文字處理技術(shù)領(lǐng)域,具體涉及對文本內(nèi)容的解碼,分析與過濾(拷貝檢測)方法。
背景技術(shù)
隨著Internet使用的日益普遍,網(wǎng)絡(luò)上存在的各種不良信息(色情、反動、暴力等等)越來越多地干擾著互聯(lián)網(wǎng)的正常秩序。由于缺乏傳統(tǒng)媒體對信息發(fā)布的有效監(jiān)控,大量本應(yīng)受到嚴(yán)格管制的信息因而隨之泛濫。如何有效控制這些信息的傳播,并保障網(wǎng)絡(luò)的內(nèi)容安全,成為不良文本檢索、監(jiān)控研究的主要內(nèi)容之一。現(xiàn)有的一些網(wǎng)絡(luò)過濾系統(tǒng)大都是基于URL地址的過濾,該技術(shù)只是簡單地對網(wǎng)絡(luò)用戶直接屏蔽掉設(shè)定在網(wǎng)絡(luò)運(yùn)營商防火墻中的不良內(nèi)容網(wǎng)站URL地址數(shù)據(jù)庫(俗稱“黑名單”)中的網(wǎng)站,國內(nèi)外市面上鮮有直接針對網(wǎng)絡(luò)文本內(nèi)容過濾的商用系統(tǒng)。雖然基于URL的屏蔽技術(shù)簡單高效,但其卻有著嚴(yán)重的局限性:由于網(wǎng)絡(luò)運(yùn)營商無法及時(shí)更新黑名單,這將導(dǎo)致很多新增色情網(wǎng)站成為漏網(wǎng)之魚;同時(shí),有些域名下并不是所有網(wǎng)頁的內(nèi)容都是不健康的,這又將導(dǎo)致一些正常內(nèi)容被無辜屏蔽。基于文本內(nèi)容的過濾卻沒有以上局限性,該技術(shù)是直接針對網(wǎng)絡(luò)上文本進(jìn)行實(shí)時(shí)內(nèi)容分析,決定該文本是否允許下載到客戶端——所以基于內(nèi)容的過濾技術(shù)必然是互聯(lián)網(wǎng)過濾系統(tǒng)的發(fā)展趨勢。然而,中文由于其特殊的編碼格式,在不同的機(jī)器上有不同的編碼格式,因此進(jìn)行編碼格式確定是非常有必要的。另外,由于基于內(nèi)容的過濾系統(tǒng)需要對文本進(jìn)行智能分析,例如變體字,火星文的分析,因此必須對待檢測文本進(jìn)行格式轉(zhuǎn)換。同時(shí),文本的內(nèi)容也具有兩重性。例如“法輪功”是一個(gè)反動詞匯,但是如果是一篇反對法輪功的文章,貿(mào)然的加以屏蔽,反而誤會了作者的意思。所以對不良文本的識別還應(yīng)該采用拷貝檢測的方法,不考慮很難解決的語義問題,而是搜集大量黑白名單,用待測文本和黑白名單中的文本進(jìn)行比較,若在白名單中有相似的文本,則認(rèn)為其為正常文本。若在黑名單中有相似文本,則認(rèn)為其為不良文本。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種效率高、速度快的對網(wǎng)絡(luò)文本與手機(jī)短信進(jìn)行不良內(nèi)容識別的方法。
本發(fā)明提供的對網(wǎng)絡(luò)文本與手機(jī)短信進(jìn)行不良內(nèi)容識別的方法,包括如下步驟:a.確定文本編碼格式,是UTF8格式還是GBK格式。b:對文本進(jìn)行格式轉(zhuǎn)換,去掉空格和Internet網(wǎng)頁上的標(biāo)簽,以及對變體字進(jìn)行處理。c:將文本與短字符串詞匯庫進(jìn)行比較,d:將文本與長字符串詞匯庫進(jìn)行比較,e:對結(jié)果進(jìn)行拷貝檢測。從而確定整篇文章是否是不良文本。整個(gè)方法的特點(diǎn)是強(qiáng)調(diào)時(shí)間效率。
所述確定文本編碼格式,包括GBK格式,UTF8格式。只有確定了文本的編碼格式,才能用具體的詞匯庫對其進(jìn)行檢測。如果詞匯庫和文本的編碼格式不相同,那么檢測出來的結(jié)果一定是錯(cuò)誤的,因此確定文本編碼格式非常重要。
所述對文本進(jìn)行格式轉(zhuǎn)換,包括對字型變異,拼音變異,夾雜無意義特殊符號變異的格式轉(zhuǎn)換。直接的文本檢測起來非常方便,但如果對這些文本進(jìn)行一些變形,例如刻意的用同音字或者同型字來代替,這樣就給文本檢測帶來了一些挑戰(zhàn)。常規(guī)的檢測方法并沒有考慮到變形字的影響,所以在碰到如“火星文”等網(wǎng)絡(luò)新興字體后就束手無措了,因此對文本格式進(jìn)行轉(zhuǎn)換就成了非常重要的步驟。對變異字的檢測最主要的手段是將變異字同其原文字對應(yīng)起來,但變異字種類繁多,變異方法也各種各樣,并沒有一個(gè)統(tǒng)一的辦法將其與原文字對應(yīng),所以必須建立一個(gè)變形字庫,將所有與原文字對應(yīng)的變形字全部放入變形字庫中。采用建立變形字庫的方法有兩種:拼音字庫和字型字庫,這兩種辦法結(jié)合起來就能完美的完成對變異字的格式轉(zhuǎn)換了。
所述短字符串詞庫,為文字長度為4個(gè)(含)以下的詞庫,長字符串詞庫為文字長度4個(gè)字以上的詞庫。將詞庫進(jìn)行分解來進(jìn)行檢測,是為了更好的提高檢測效率。中文的語法強(qiáng)調(diào)短小精辟,一般的詞匯都由是2到4個(gè)漢字組成。因此詞匯庫中,2到4個(gè)漢字的詞匯占據(jù)了詞匯庫的絕大部分。將詞庫分開,對短字符串詞庫和長字符串詞匯用不同的方法進(jìn)行預(yù)處理,能將檢測速度提高3到4倍。
所述對結(jié)果進(jìn)行拷貝檢測,包括白名單檢測與黑名單檢測。白名單是指通過收集大量的正常文本來分析其中的不良詞匯出現(xiàn)的頻率,位置,以及其前后文的情況,經(jīng)過統(tǒng)計(jì)分析得出的一個(gè)特征庫。黑名單正好想法,是通過收集大量的不良文本分析得到的特征庫。如果某個(gè)不良文本與黑名單或白名單中的某些特征很相似,那么就可以通過相似度來判定文章是正常文本還是不良文本。
附圖說明
圖1是算法流程圖。
圖2是文本格式轉(zhuǎn)換圖。
圖3是短字符串詞庫比較圖。
圖4是滑動窗口圖。
具體實(shí)施方式
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于復(fù)旦大學(xué),未經(jīng)復(fù)旦大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010167065.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點(diǎn)網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲介質(zhì)及移動終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 一種實(shí)現(xiàn)手機(jī)短信自毀的方法
- 使用手機(jī)短信息服務(wù)實(shí)現(xiàn)保險(xiǎn)卡式產(chǎn)品的銷售系統(tǒng)
- 使用手機(jī)短信服務(wù)和彩信服務(wù)實(shí)現(xiàn)保險(xiǎn)卡式產(chǎn)品的贈送系統(tǒng)
- 手機(jī)短信息安全存儲系統(tǒng)
- 手機(jī)短信息安全存儲系統(tǒng)
- 手機(jī)短信和內(nèi)網(wǎng)郵箱通訊系統(tǒng)及其實(shí)現(xiàn)方法
- 煙葉烘烤烘干手機(jī)短信報(bào)警自動控制設(shè)備
- 一種網(wǎng)絡(luò)信息與手機(jī)短信結(jié)合展示的方法及裝置
- 智能穿戴設(shè)備接收手機(jī)短信的方法及服務(wù)器
- 用手機(jī)短信驗(yàn)證碼實(shí)現(xiàn)高準(zhǔn)確率考勤的系統(tǒng)及其設(shè)備





