[發明專利]一種基于強化貝葉斯分類的社交行為檢測方法有效
| 申請號: | 201810578405.1 | 申請日: | 2018-06-07 |
| 公開(公告)號: | CN108804651B | 公開(公告)日: | 2022-08-19 |
| 發明(設計)人: | 薛麗;陳志;張怡婷;岳文靜;金廣華;鄭瑤嘉;張姝彥 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/284 |
| 代理公司: | 南京瑞弘專利商標事務所(普通合伙) 32249 | 代理人: | 沈廉 |
| 地址: | 210003 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強化 貝葉斯 分類 社交 行為 檢測 方法 | ||
本發明公開了一種基于強化貝葉斯分類的社交行為檢測方法具體為:步驟1)收集中文社交網站言論的文本訓練樣本集,包括攻擊性言論文本及贊賞性言論文本等類別文本,建立社交網站言論的文本訓練樣本集;步驟2)根據停用詞詞庫對中文社交網站言論的文本訓練樣本集進行中文分詞得到某個中文訓練集的詞序列vi,i∈{1,2,3,...f},f為訓練樣本總數;步驟3)通過TF?IDF中文分詞算法對中文社交網站言論的文本訓練樣本集中不同行為類別文本的進行特征提取;步驟4)輸入特征詞序列,使用貝葉斯模型進行學習識別;步驟5)通過強化貝葉斯分類器對分類器進行強化。本發明方法能夠更加精確和高效的對人物社交行為進行檢測,具有較好的應用前景。
技術領域
本發明涉及一種基于強化貝葉斯分類的社交行為檢測方法,尤其是在在線社交網絡中進行社交行為檢測,通過TF-IDF中文分詞算法對社交網絡人物言論進行檢測分類,并且提取特征詞及特征值權值,之后特征詞及其權值輸入貝葉斯分類器中進行社交網絡人物行為進行分類檢測。
背景技術
貝葉斯算法以其高效、易于實現、擴展性好的特點,已廣泛的應用在行為分類的過程中此外,貝葉斯算法能夠通過對中文語言樣本的訓練,自動學習樣本內容來對社交人物行為進行檢測。在現有的社交人物行為進行檢測中,貝葉斯算法在行為檢測中顯現出了極好的應用效果。
TF-IDF是一種用于資訊檢索與資訊探勘的常用加權技術。TF-IDF是一種統計方法,用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。
加強學習是一種迭代的算法,會對同一個訓練集使用不同的分類器訓練,之后,再把這些分類器集合起來,構建一個最終的最強的分類器。其算法本身是通過改變一個權重D的分布來實現的,該權重D初始化一致,然后改變之后交給下一次分類器。使用加強分類器能夠過濾掉一些不必要的訓練數據特征,然后放在關鍵的訓練數據上面。
發明內容
技術問題:本發明公開了一種基于強化貝葉斯分類的社交行為檢測方法。該方法首先將人物的言論量化為行為向量,行為向量的每個維度的值相當于人物對該行為的取值。使用樸素貝葉斯分類模型實現對人物行為向量進行簡單分類。
技術方案:本發明的一種基于強化貝葉斯分類的社交行為檢測方法主要包括以下步驟:
步驟1)收集中文社交網站言論的文本訓練樣本集,包括攻擊性言論文本及贊賞性言論文本等類別文本,建立社交網站言論的文本訓練樣本集;
步驟2)根據停用詞詞庫對中文社交網站言論的文本訓練樣本集進行中文分詞得到某個中文訓練集的詞序列Vi,i∈{1,2,3,...f},f為訓練樣本總數;
步驟3)通過TF-IDF中文分詞算法對中文社交網站言論的文本訓練樣本集中不同行為類別文本的進行特征提取;
步驟4)輸入特征詞序列,使用貝葉斯模型進行學習識別;
步驟5)通過強化貝葉斯分類器對分類器進行強化。
其中,
步驟3)所述通過TF-IDF中文分詞算法對中文社交網站言論的文本訓練樣本集中不同行為類別文本的進行特征提取,根據提取的特征詞以及特征詞權值更新特征詞詞庫,具體如下:
步驟31)計算vi詞語序列中的第j個詞語vi,j的正向詞頻公式中的ni,j是詞語vi,j在詞序列vi中的出現次數,∑ni,j是次序列vi所有字詞的出現次數之和;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810578405.1/2.html,轉載請聲明來源鉆瓜專利網。





