[發明專利]融合變體詞識別的短文本審核方法及裝置在審
| 申請號: | 202011192254.X | 申請日: | 2020-10-30 |
| 公開(公告)號: | CN112287684A | 公開(公告)日: | 2021-01-29 |
| 發明(設計)人: | 孔慶超;王婧宜;王宇琪;王磊;毛文吉;曾大軍;王祥;王元杰 | 申請(專利權)人: | 中國科學院自動化研究所;國家計算機網絡與信息安全管理中心 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/30 |
| 代理公司: | 北京市恒有知識產權代理事務所(普通合伙) 11576 | 代理人: | 郭文浩;尹文會 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 融合 變體 識別 文本 審核 方法 裝置 | ||
本發明屬于領域,具體涉及了一種融合變體詞識別的短文本審核方法及裝置,旨在解決如何將變體詞識別技術融合到有害文本審核任務中并實現模型自動更新的問題。本發明包括:構建配置詞庫,基于社交媒體平臺獲取待審核文本數據,對待審核文本數據進行篩選獲得可疑文本數據,并去除無意義信息并計算文本特征向量和統計特征向量,將文本特征向量和統計特征向量進行特征融合通過訓練好的基于支持向量機的有害文本分類模型獲取有害文本,利用預設的關鍵詞抽取算法獲取所述有害文本的敏感詞寫入配置詞庫。本發明將變體詞識別技術融合到文本特征和統計特征計算進行有害文本審核任務中并實現模型自動更新,提高了文本審核的準確率和更新速度。
技術領域
本發明屬于文本分析領域,具體涉及了一種融合變體詞識別的短文本審核方法及裝置。
背景技術
隨著Twitter、微博等各種社交媒體平臺逐漸走向成熟,信息傳播的門檻逐漸降低,用戶可以便捷的在網絡上傳播信息。在用戶貢獻規模不斷增長的同時,內容亂象也日漸凸顯。一些不法分子利用社交媒體傳播政治敏感、惡意推廣、色情暴力的內容。這些有害內容不僅影響了用戶體驗,還給平臺帶來極大的法律風險,給網絡環境造成了很壞的影響。因此,如何從海量信息里甄別、過濾有害內容成為了一個重要問題。
傳統內容審核方式主要是人工審核:內容審核人員發現有害信息后,定位有害信息的關鍵詞,構建敏感詞庫,之后通過敏感詞匹配的方式過濾新的有害信息。人工審核的弊端也很明顯:(1)有害信息內容迭代快,敏感詞庫更新有延遲。(2)敏感詞匹配的方式可能會“誤傷”一些無害文本,因此需要人工進行二次審核。(3)有害文本信息數量大,人工審核成本高。
后來工業界出現了基于機器學習的文本審核方法,一定程度上降低了人工審核的成本,此類方法有以下缺點:(1)基于傳統機器學習的有害短文本分類方法準確率不高,這是由于社交媒體信息具有長度短、內容少的特點,傳統機器學習方法非常容易誤傷一些包含敏感詞的無害短文本。(2)有害信息有表達不規范的特點,信息發布人會使用敏感詞的變體(例如同音詞)替換敏感詞,基于機器學習的文本審核方法不具有識別變體的能力。(3)有害信息主題及內容更新快,需要頻繁更新模型以保證模型的召回率。
發明內容
為了解決現有技術中的上述問題,即如何將變體詞識別技術融合到有害文本審核任務中并實現模型自動更新的問題,本發明提供了一種融合變體詞識別的短文本審核方法,所述方法包括:
步驟S100,構建配置詞庫;所述配置詞庫的配置包括:敏感詞、變體詞及其組合,其中敏感詞還包括目標詞;
步驟S200,基于社交媒體平臺獲取待審核文本數據;
步驟S300,基于所述配置詞庫的配置對待審核文本數據進行篩選,獲得可疑文本數據;
步驟S400,對所述可疑文本數據進行去除無意義信息的預處理,獲得有效可疑文本數據;
步驟S500,通過預設的文本特征提取方法獲取所述有效可疑文本數據的文本特征向量,通過正則表達式獲取所述有效可疑文本數據的統計特征向量;
步驟S600,將所述文本特征向量和統計特征向量進行特征融合,生成最終特征矩陣;
步驟S700,基于所述最終特征矩陣,通過訓練好的基于支持向量機的有害文本分類模型,獲得所述最終特征矩陣對應的有效可疑文本數據為有害文本的有害概率;
步驟S800,將所述有害概率大于預設的有害閾值的對應的有效可疑文本數據設定為有害文本,利用預設的關鍵詞抽取算法獲取所述有害文本的敏感詞,將所述敏感詞寫入所述配置詞庫,當敏感詞個數大于1時,用^把敏感詞拼接起來,將拼接后的敏感詞寫入所述配置詞庫;所述預設的關鍵詞抽取算法包括TextRank、TF-IDF和基于規則統計的方法中的一個或多個。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院自動化研究所;國家計算機網絡與信息安全管理中心,未經中國科學院自動化研究所;國家計算機網絡與信息安全管理中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011192254.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種防傾覆隔震橡膠支座結構
- 下一篇:一種葛根種植用農藥噴灑裝置





