[發明專利]一種基于神經網絡的自學習語義檢測方法及系統無效
| 申請號: | 201210505765.1 | 申請日: | 2012-11-30 |
| 公開(公告)號: | CN103853701A | 公開(公告)日: | 2014-06-11 |
| 發明(設計)人: | 蘇青;苗光勝;牛溫佳;唐暉;慈松;譚紅艷 | 申請(專利權)人: | 中國科學院聲學研究所;華數傳媒網絡有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京法思騰知識產權代理有限公司 11318 | 代理人: | 楊小蓉;楊青 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 神經網絡 自學習 語義 檢測 方法 系統 | ||
技術領域
本發明屬于網絡信息處理與分析領域,尤其涉及到文字信息內容性質與傾向性的自動判定領域,具體涉及一種基于神經網絡的自學習語義檢測方法及系統。
背景技術
網絡信息的自動處理與分析技術是實現網絡內容的分析、檢測與管理的重要組成部分,對于網絡內容處理與安全系統的構建具有重要意義。
由于網絡技術的不斷發展和運營商提供的帶寬不斷的提高,用戶可以很方便的訪問下載網絡上的各種信息,其中,帶寬的提升為信息傳遞提供了更寬廣的舞臺的同時,也給不良信息傳播提供了新便利。近年來,網絡上的淫穢、色情和反動等有害信息傳播盛行,傳統網絡信息處理方案對于這些有害信息的識別往往需要很大的人力和物力,受客觀條件的限制,對于網絡不良信息的發現與處理遠不能滿足現實需要。
互聯網就像由許多河流交匯組成的龐大水系,里面高速地流動著各種各樣的內容信息,網絡用戶通過到河里取水的方式訪問互聯網。互聯網這個江河水系的流量巨大、流速極快,連接到之上的用戶數量數以億計。傳統的網絡信息處理和分析方案無法實現網絡信息性質的自動和智能化分析,必須投入大量的人員進行手工分析和判別。現有技術只是單純的定義某個分詞是良或者不良,如果文件名包含不良的分詞即判斷此文件名為不良,而不是進行貝葉斯的全概率分析;另外,這種定義分詞的工作量很大,比較難以更新,本系統可以隨時進行自學習更新,以免出現新興的詞而造成漏判或誤判;還有,本系統還增加了反饋環節,防止分詞不完整或不正確,提高成功率。從系統組成上分析現有的判別系統基本上只有一個分詞模塊和判別模塊,進行簡單的分詞,然后看是否包含不良關鍵詞,以此來判斷文件名的屬性,往往成功率不高。
當前形勢下,面臨互聯網中海量內容,使用人工方法要做到實時分析已經無法應對,迫切需要具有智能分析能力的網絡信息處理和識別方案,實現對特定網絡信息性質的自動檢測和判定。
發明內容
本發明的目的在于為克服上述問題,本發明提供了一種基于神經網絡的自學習語義檢測方法及系統。
為實現上述目的,本發明提供了一種基于神經網絡的自學習語義檢測方法,所述方法包含:
步驟101)導入字典庫對待識別的文件名分詞,獲得文件名中的關鍵詞,基于貝葉斯算法計算每個關鍵詞的概率項;且所述概率項基于對文件名良或不良的判斷結果的分析獲取;
步驟102)獲取所有關鍵詞對應的在良語義字符串名中出現的概率之積和良語義字符串名的先驗概率,并將上述兩個參量值相乘得到第一乘積;并
獲取所有關鍵詞對應的在不良語義字符串名中出現的概率之積和不良語義字符串名的先驗概率,并將兩個參量相乘得到第二與的乘積;
步驟103)比較第一乘積與第二乘積的大小,如果第一乘積項大于第二乘積項,則該字符串是良語義的,反之則是不良語義的,將判決結果存入到存儲介質中。
上述概率項為:良和不良兩種類別分別所占百分比P(Vj)和從類別Vj中的一個文件名隨機抽取的一個詞為Wk的概率
其中,P(Vj)的計算公式為V中目標值為Vj的文件名子集/V中所有文件名數目,V為文件名集合;
的計算公式為:
其中,n為在Textj中不同關鍵詞的總數,Textj為將docsj中所有的成員連接起來的單個文檔,docsj為V中目標值為Vj的文件名子集,其中Vj是良或者不良,nk為單詞Wk出現在Textj中的次數,|V|表示V中文件名的個數。
上述步驟102)所述的所有關鍵詞對應的在良語義字符串名中出現的概率之積該乘積公式的Wk是文件名中各關鍵詞;所述良語義字符串名的先驗概率P=P(Vj);所述的所有關鍵詞對應的在不良語義字符串名中出現的概率之積所述不良語義字符串名的先驗概率P=P(Vj)。
優化的,所述步驟101)和步驟102)之間還包含:采用反饋策略保證文件名中所有關鍵詞分詞的完整。可以采用人工審核獲得基于對良或不良的判斷結果。
基于上述方法本發明還提供了一種基于神經網絡的自學習語義檢測系統,所述系統包含:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院聲學研究所;華數傳媒網絡有限公司,未經中國科學院聲學研究所;華數傳媒網絡有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210505765.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:玻璃鋼制品的加強筋
- 下一篇:一種生成二維碼的方法和裝置





