[發明專利]融合變體詞識別的短文本審核方法及裝置在審
| 申請號: | 202011192254.X | 申請日: | 2020-10-30 |
| 公開(公告)號: | CN112287684A | 公開(公告)日: | 2021-01-29 |
| 發明(設計)人: | 孔慶超;王婧宜;王宇琪;王磊;毛文吉;曾大軍;王祥;王元杰 | 申請(專利權)人: | 中國科學院自動化研究所;國家計算機網絡與信息安全管理中心 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/30 |
| 代理公司: | 北京市恒有知識產權代理事務所(普通合伙) 11576 | 代理人: | 郭文浩;尹文會 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 融合 變體 識別 文本 審核 方法 裝置 | ||
1.一種融合變體詞識別的短文本審核方法,其特征在于,所述方法包括:
步驟S100,構建配置詞庫;所述配置詞庫的配置包括:敏感詞、變體詞及其組合,其中敏感詞還包括目標詞;
步驟S200,基于社交媒體平臺獲取待審核文本數據;
步驟S300,基于所述配置詞庫的配置對待審核文本數據進行篩選,獲得可疑文本數據;
步驟S400,對所述可疑文本數據進行去除無意義信息的預處理,獲得有效可疑文本數據;
步驟S500,通過預設的文本特征提取方法獲取所述有效可疑文本數據的文本特征向量,通過正則表達式獲取所述有效可疑文本數據的統計特征向量;
步驟S600,將所述文本特征向量和統計特征向量進行特征融合,生成最終特征矩陣;
步驟S700,基于所述最終特征矩陣,通過訓練好的基于支持向量機的有害文本分類模型,獲得所述最終特征矩陣對應的有效可疑文本數據為有害文本的有害概率;
步驟S800,將所述有害概率大于預設的有害閾值的對應的有效可疑文本數據設定為有害文本,利用預設的關鍵詞抽取算法獲取所述有害文本的敏感詞,將所述敏感詞寫入所述配置詞庫,當敏感詞個數大于1時,用^把敏感詞拼接起來,將拼接后的敏感詞寫入所述配置詞庫;所述預設的關鍵詞抽取算法包括TextRank、TF-IDF和基于規則統計的方法中的一個或多個。
2.根據權利要求1所述的融合變體詞識別的短文本審核方法,所述對可疑文本數據進行去除無意義信息的預處理,其方法包括:文本去噪、文本清洗、同類別信息歸一化、分詞斷句和去除停用詞中的一種或多種;
所述文本去噪,其方法為通過正則表達式刪除所述可疑文本數據中的對中文分詞無幫助的特殊符號;
所述文本清洗,其方法為將所述可疑文本數據中的繁體字轉化為簡體字,將標點符號轉化為半角形式的標點符號,將大寫英文字母轉換為小寫英文字母;
所述同類別信息歸一化,其方法為利用正則表達式,對所述可疑文本數據中的微信號、qq號、銀行賬號、網址、郵箱、手機號碼和表情符號進行歸并,使用統一名稱替換;
所述分詞斷句,其方法為基于分詞算法和分詞詞表將連續的字序列組合成詞序列;所述分詞算法為基于前綴詞典的詞圖掃描算法、隱馬爾科夫算法、動態規劃算法中的一種或是多種的疊加;
所述去除停用詞,其方法為將所述可疑文本數據中屬于預先設定的停用詞表中的詞匯刪除。
3.根據權利要求2所述的融合變體詞識別的短文本審核方法,其特征在于,步驟S400和步驟S500之間還設置有自動更新配置詞庫的步驟,包括:
步驟S400A,基于所述目標詞,通過預設的變體詞算法獲取所述有效可疑文本數據中變體詞;所述變體詞包括字音變體詞、字形變體詞、數字類變體詞和拼音類變體詞;
步驟S400B,將所述變體詞加入分詞詞表和所述配置詞庫;
其中,步驟S400A包括:
步驟S410A,基于所述可疑文本數據,通過漢語語言模型,獲取所有與所述目標詞長度相同的連續子字符串序列;
步驟S420A,計算所述連續子字符串序列中的子字符串與目標詞的字音相似度和字形相似度;
步驟S430A,將字音相似度大于預設的字音變體閾值的子字符串作為字音變體詞,將字形相似度大于預設的字形變體閾值的子字符串作為字形變體詞。
4.根據權利要求3所述的融合變體詞識別的短文本審核方法,其特征在于,所述字音相似度,其計算方法為:
將所述目標詞與子字符串拆解成單字序列;
通過漢字拼音轉化模塊將每個單字轉化為漢語拼音,其中漢語拼音由聲母和韻母組成;
基于預設的漢語聲母、韻母相似度字典,計算所述子字符串對應的單字與所述目標詞對應的單字的聲母相似度和韻母相似度,通過加權平均的方法得到子字符串和目標詞的字音相似度。
5.根據權利要求3所述的融合變體詞識別的短文本審核方法,其特征在于,所述字形相似度,其計算方法為:
將所述目標詞與子字符串拆解成單字序列;
獲取每個單字的四角碼、漢字筆畫數;
計算對應的單字的四角碼相似度、漢字筆畫數相似度和結構相似度,通過加權平均的方法獲得對應單字的字形相似度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院自動化研究所;國家計算機網絡與信息安全管理中心,未經中國科學院自動化研究所;國家計算機網絡與信息安全管理中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011192254.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種防傾覆隔震橡膠支座結構
- 下一篇:一種葛根種植用農藥噴灑裝置





