[發明專利]一種基于強化貝葉斯分類的社交行為檢測方法有效
| 申請號: | 201810578405.1 | 申請日: | 2018-06-07 |
| 公開(公告)號: | CN108804651B | 公開(公告)日: | 2022-08-19 |
| 發明(設計)人: | 薛麗;陳志;張怡婷;岳文靜;金廣華;鄭瑤嘉;張姝彥 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/284 |
| 代理公司: | 南京瑞弘專利商標事務所(普通合伙) 32249 | 代理人: | 沈廉 |
| 地址: | 210003 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強化 貝葉斯 分類 社交 行為 檢測 方法 | ||
1.一種基于強化貝葉斯分類的社交行為檢測方法,其特征在于,該方法主要包括以下步驟:
步驟1)收集中文社交網站言論的文本訓練樣本集,包括攻擊性言論文本及贊賞性言論文本類別文本,建立社交網站言論的文本訓練樣本集;
步驟2)根據停用詞詞庫對中文社交網站言論的文本訓練樣本集進行中文分詞得到某個中文訓練集的詞序列vi,i∈{1,2,3,...f},f為訓練樣本總數;
步驟3)通過TF-IDF中文分詞算法對中文社交網站言論的文本訓練樣本集中不同行為類別文本進行特征提取;
步驟4)輸入特征詞序列,使用貝葉斯模型進行學習識別;
步驟5)通過強化貝葉斯分類器對分類器進行強化;
其中,
所述步驟4)輸入特征詞序列,使用貝葉斯模型進行學習識別的過程為:
步驟41)、特征詞序列x={ak},k∈{1,2,3,...m}為一個待分類項,ak為特征詞序列的第k個特征詞,總共有m個特征詞;
步驟42)有社交行為類別集合C={yz},z∈{1,2,3,...n},其中的yz是第z個社交行為類別,總共有n個社交行為類別;
步驟43)在各個特征屬性是條件獨立的基礎上,計算出每個類別下的各個屬性的條件概率P(*)為貝葉斯概率公式,*為概率事件;
步驟44)根據公式對每個類別的概率P(x|yz)P(yz)進行計算,P(yz)為類別yz的概率;P(ak|yz)是在分類屬性為ak條件下的條件概率,u為迭代變量u∈{1,2,...m};
步驟45)計算出P(x|yz)P(yz)最大項,作為詞序列x所屬類別并得到弱分類器函數h(xp),xp為詞序列x的第P個屬性值;
所述步驟5)加強貝葉斯分類器進行訓練的方法為:
步驟51):準備N個訓練樣本{(xp,yq)},p∈{1,2,3,...m}組成訓練集和D,yq是xp對應的第q個社交行為類別,賦予每個樣本相等的權重權重;
步驟52):訓練樣本集D上,利用樣本權重ω和步驟4中學習得到弱分類器h(xp)計算弱分類器h(xp)的錯誤率為每個分類器偏差率;
步驟53)假設ε>0.5,使用簡單貝葉斯進行分類,否則計算模型迭代權值a,
步驟54)根據公式計算出強化貝葉斯分類模型h*;T為總的行為總類數目,x是中文文本的特征詞序列,a是不同類別的加權值,h*是強化分類器模型,I(h(xp)≠yq)為每個分類器正確率。
2.根據權利要求1所述的一種基于強化貝葉斯分類的社交行為檢測方法,其特征在于,步驟3)所述通過TF-IDF中文分詞算法對中文社交網站言論的文本訓練樣本集中不同行為類別文本進行特征提取,其中,根據提取的特征詞以及特征詞權值更新特征詞詞庫,具體如下:
步驟31)計算vi詞語序列中的第j個詞語vi,j的正向詞頻公式中的ni,j是詞語vi,j在詞序列vi中的出現次數,∑ni,j是詞序列vi所有字詞的出現次數之和;
步驟32)計算vi詞語序列中的第j個詞語vi,j的逆文件詞頻|D|是語料庫中的文件總數,countsum是包含詞語vi,j的文件總數;
步驟33)計算vi詞語序列中的第j個詞語vi,j的詞頻逆文件詞頻值;tfi,j-idfi,j=tfi,j×idfi,j,保留vi序列中留tfi,j-idfi,j值超過闕值t的詞語作為特征詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810578405.1/1.html,轉載請聲明來源鉆瓜專利網。





