[發明專利]一種基于遠程監督的敏感文風識別方法在審
| 申請號: | 202110558876.8 | 申請日: | 2021-05-21 |
| 公開(公告)號: | CN113204975A | 公開(公告)日: | 2021-08-03 |
| 發明(設計)人: | 高劍奇;景艷山 | 申請(專利權)人: | 上海明略人工智能(集團)有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/289;G06F40/211;G06F16/951;G06N3/04;G06N3/08;G06F16/35;G06K9/62 |
| 代理公司: | 成都眾恒智合專利代理事務所(普通合伙) 51239 | 代理人: | 劉華平 |
| 地址: | 200030 上海市徐匯區*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 遠程 監督 敏感 文風 識別 方法 | ||
1.一種基于遠程監督的敏感文風識別方法,其特征在于包括以下步驟:
S1獲取文本語料,針對互聯網中獲取的大量的文本語料利用word2vec訓練詞向量模型,獲得文本中每一個詞語的語義向量表示;
S2根據業務需求進行類別劃分并構建各個類別的種子詞,針對各個類別的的種子詞,利用訓練好的詞向量模型,對各個類別的種子詞進行擴充,獲得每個敏感類別的觸發詞集合;
S3針對獲得的每個觸發詞,利用自適應模板,回到原始文本語料中進行回標,獲得帶有目標敏感標簽的訓練語料;
S4搭建BERT+self-attention+softmax深度學習模型,選用adam優化算法對模型進行訓練,訓練好的模型用于對敏感文本進行識別;
S5輸出文本語料中具有敏感信息的文本。
2.根據權利要求1所述的基于遠程監督的敏感文風識別方法,其特征在于:S1中的所述文本語料從網絡中爬取后利用分詞軟件進行數據預處理,然后基于已經分詞的文本數據訓練word2vec詞向量模型。
3.根據權利要求1所述的基于遠程監督的敏感文風識別方法,其特征在于:S2中類別劃分主要為涉黃、反動、暴恐三類,S2中的敏感種子詞擴充過程中進行人工校正。
4.根據權利要求1所述的基于遠程監督的敏感文風識別方法,其特征在于:S3中如果詞語命中,則將該句子打上相應的類別標簽;如果沒有命中的句子則打上相應的負類標簽,最終形成模型的訓練數據集。
5.根據權利要求1所述的基于遠程監督的敏感文風識別方法,其特征在于:S4中給定一條句子,輸入到所述BERT+self-attention+softmax深度學習模型中,該模型自動輸出該句子所屬的類別。
6.根據權利要求1所述的基于遠程監督的敏感文風識別方法,其特征在于:S4中利用BERT對待輸入的句子進行編碼,作為模型的輸入。
7.根據權利要求6所述的基于遠程監督的敏感文風識別方法,其特征在于:在S4中搭建self-attention層并采用多頭注意力機制自動的挖掘BERT編碼的重要特征。
8.根據權利要求7所述的基于遠程監督的敏感文風識別方法,其特征在于:所述多頭注意力機制的Query、Key、Value首先經過一個線性變換,然后輸入到放縮點積attention,每次Query、Key、Value進行線性變換的參數W均不同,將多次的放縮點積attention結果進行拼接,再進行一次線性變換得到的值作為多頭attention的結果。
9.根據權利要求7所述的基于遠程監督的敏感文風識別方法,其特征在于:S4中在self-attention層后搭建一個softmax層,使用sigmoid作為激活函數用來對多分類的結果進行歸一化,輸出待預測文本在各個標簽上的概率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海明略人工智能(集團)有限公司,未經上海明略人工智能(集團)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110558876.8/1.html,轉載請聲明來源鉆瓜專利網。





