[發明專利]一種基于神經網絡的自學習語義檢測方法及系統無效
| 申請號: | 201210505765.1 | 申請日: | 2012-11-30 |
| 公開(公告)號: | CN103853701A | 公開(公告)日: | 2014-06-11 |
| 發明(設計)人: | 蘇青;苗光勝;牛溫佳;唐暉;慈松;譚紅艷 | 申請(專利權)人: | 中國科學院聲學研究所;華數傳媒網絡有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京法思騰知識產權代理有限公司 11318 | 代理人: | 楊小蓉;楊青 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 神經網絡 自學習 語義 檢測 方法 系統 | ||
1.一種基于神經網絡的自學習語義檢測方法,所述方法包含:
步驟101)導入字典庫對待識別的文件名分詞,獲得文件名中的關鍵詞,基于貝葉斯算法計算每個關鍵詞的概率項;且所述概率項基于對文件名良或不良的判斷結果的分析獲取;
步驟102)獲取所有關鍵詞對應的在良語義字符串名中出現的概率之積和良語義字符串名的先驗概率,并將上述兩個參量值相乘得到第一乘積;并
獲取所有關鍵詞對應的在不良語義字符串名中出現的概率之積和不良語義字符串名的先驗概率,并將兩個參量相乘得到第二與的乘積;
步驟103)比較第一乘積與第二乘積的大小,如果第一乘積項大于第二乘積項,則該字符串是良語義的,反之則是不良語義的,將判決結果存入到存儲介質中。
2.根據權利要求1所述的基于神經網絡的自學習語義檢測方法,其特征在于,所述概率項為:良和不良兩種類別分別所占百分比P(Vj)和從類別Vj中的一個文件名隨機抽取的一個詞為Wk的概率
其中,P(Vj)的計算公式為V中目標值為Vj的文件名子集/V中所有文件名數目,V為文件名集合;
的計算公式為:
其中,n為在Textj中不同關鍵詞的總數,Textj為將docsj中所有的成員連接起來的單個文檔,docsj為V中目標值為Vj的文件名子集,其中Vj是良或者不良,nk為單詞Wk出現在Textj中的次數,|V|表示V中文件名的個數。
3.根據權利要求2所述的基于神經網絡的自學習語義檢測方法,其特征在于,
步驟102)所述的所有關鍵詞對應的在良語義字符串名中出現的概率之積該乘積公式的Wk是文件名中各關鍵詞;
所述良語義字符串名的先驗概率P=P(Vj);
所述的所有關鍵詞對應的在不良語義字符串名中出現的概率之積
所述不良語義字符串名的先驗概率P=P(Vj)。
4.根據權利要求1所述的基于神經網絡的自學習語義檢測方法,其特征在于,所述步驟101)和步驟102)之間還包含:
采用反饋策略保證文件名中所有關鍵詞分詞的完整。
5.一種基于神經網絡的自學習語義檢測系統,所述系統包含:
概率項獲取模塊,用于導入字典庫對待識別的文件名分詞,獲得文件名中的關鍵詞,基于貝葉斯算法計算每個關鍵詞的概率項;且所述概率項基于對良或不良的判斷結果的分析獲取;
處理模塊,用于獲取所有關鍵詞對應的在良語義字符串名中出現的概率之積與良語義字符串名的先驗概率,并將良語義字符串名中出現的概率之積與良語義字符串名的先驗概率相乘;并獲取所有關鍵詞對應的在不良語義字符串名中出現的概率之積與不良語義字符串名的先驗概率,并將不良語義字符串名中出現的概率之積與不良語義字符串名的先驗概率相乘;
比較判決模塊,用于依據處理模塊的輸出結果,進行如下判決:
如果良語義字符串名中出現的概率之積與良語義字符串名的先驗概率相乘的結果大于良語義字符串名中出現的概率之積與不良語義字符串名的先驗概率相乘的結果,則該字符串是良語義的,反之則是不良語義的,將判決結果存入到存儲介質中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院聲學研究所;華數傳媒網絡有限公司,未經中國科學院聲學研究所;華數傳媒網絡有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210505765.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:玻璃鋼制品的加強筋
- 下一篇:一種生成二維碼的方法和裝置





