[發(fā)明專利]一種基于遠程監(jiān)督的敏感文風識別方法在審
| 申請?zhí)枺?/td> | 202110558876.8 | 申請日: | 2021-05-21 |
| 公開(公告)號: | CN113204975A | 公開(公告)日: | 2021-08-03 |
| 發(fā)明(設(shè)計)人: | 高劍奇;景艷山 | 申請(專利權(quán))人: | 上海明略人工智能(集團)有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/289;G06F40/211;G06F16/951;G06N3/04;G06N3/08;G06F16/35;G06K9/62 |
| 代理公司: | 成都眾恒智合專利代理事務(wù)所(普通合伙) 51239 | 代理人: | 劉華平 |
| 地址: | 200030 上海市徐匯區(qū)*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 遠程 監(jiān)督 敏感 文風 識別 方法 | ||
本發(fā)明涉及一種基于遠程監(jiān)督的敏感文風識別方法,包括以下步驟:S1獲取文本語料,針對互聯(lián)網(wǎng)中獲取的大量的文本語料利用word2vec訓(xùn)練詞向量模型,獲得文本中每一個詞語的語義向量表示;S2根據(jù)業(yè)務(wù)需求進行類別劃分并構(gòu)建各個類別的種子詞,針對各個類別的的種子詞,利用訓(xùn)練好的詞向量模型,對各個類別的種子詞進行擴充,獲得每個敏感類別的觸發(fā)詞集合;S3針對獲得的每個觸發(fā)詞,利用自適應(yīng)模板,回到原始文本語料中進行回標,獲得帶有目標敏感標簽的訓(xùn)練語料;S4搭建BERT+self?attention+softmax深度學(xué)習(xí)模型,選用adam優(yōu)化算法對模型進行訓(xùn)練,訓(xùn)練好的模型用于對敏感文本進行識別;S5輸出文本語料中具有敏感信息的文本。本發(fā)明提高了對敏感文本識別的準確率和召回率。
技術(shù)領(lǐng)域
本發(fā)明用于計算機信息處理技術(shù)領(lǐng)域,特別涉及一種基于遠程監(jiān)督的敏感文風識別方法。
背景技術(shù)
互聯(lián)網(wǎng)中遍布著大量的新聞,評論等各種各樣的文本數(shù)據(jù),這些數(shù)據(jù)為用戶們查詢信息、溝通交流和拓寬視野等提供了極大的便利。然而這些數(shù)據(jù)中也包含了大量的涉政、色情、辱罵等大量噪音數(shù)據(jù),嚴重的影響了用戶的體驗,同時污染我們的生活環(huán)境,內(nèi)容安全的防治刻不容緩。
通過機器學(xué)習(xí)算法,精準高效識別各類場景涉政、色情、辱罵和廣告法敏感詞、垃圾廣告等違規(guī)內(nèi)容,可以幫助政府和企業(yè)提前發(fā)現(xiàn)敏感內(nèi)容。然而,目前的方法仍然存在如下問題:第一、訓(xùn)練模型的標注數(shù)據(jù)不足,而人工的數(shù)據(jù)標注需要消耗大量的人力和物力;第二、模型的準確率有待提高。
現(xiàn)階段的方法主要將敏感文本的識別看成一個多分類問題,然而由于訓(xùn)練語料的缺失,使得敏感文本識別模型準確率和召回率都有待提高,而對訓(xùn)練語料進行人工數(shù)據(jù)進行標注人工成本特別高。而遠程監(jiān)督是借助外部知識庫為數(shù)據(jù)提供標簽,從而省去人工標注的時間和成本。但是遠程監(jiān)督會產(chǎn)生噪音數(shù)據(jù),因此還需要搭建模型來進行對敏感文本的識別。
Word2vec是Google公司在2013年提出的詞向量模型,主要任務(wù)是將詞映射到高維空間轉(zhuǎn)化為相應(yīng)詞向量,該詞向量具有語義相似度。Word2vec的原理是構(gòu)造一個網(wǎng)絡(luò)模型,該網(wǎng)絡(luò)模型有兩種主要結(jié)構(gòu),分別是skip-gram和CBOW(Continuous Bag Of Words,CBOW)模型。兩個模型具有類似的結(jié)構(gòu),分別由輸入層、映射層(隱藏層)和輸出層組成。簡單來說,skip-gram的核心思想是根據(jù)當前詞來預(yù)測上下文窗口中每個詞的生成概率,最大化背景詞的輸出概率。
BERT的全稱是Bidirectional Encoder Representation from Transformers。BERT在機器閱讀理解頂級水平測試SQuAD1.1中表現(xiàn)出驚人的成績:全部兩個衡量指標上全面超越人類,并且在11種不同NLP測試中創(chuàng)出SOTA表現(xiàn),包括將GLUE基準推高至80.4%(絕對改進7.6%),MultiNLI準確度達到86.7%(絕對改進5.6%),成為NLP發(fā)展史上的里程碑式的模型成就。
目前現(xiàn)有技術(shù)中,對敏感文風的識別常采用的技術(shù)方案多為以遠程監(jiān)督方法為主,將文本與現(xiàn)有知識庫進行啟發(fā)式地標注構(gòu)建大規(guī)模語料后,再采用有監(jiān)督的方法進行學(xué)習(xí)。例如,專利申請?zhí)枮镃N202010523627.0的發(fā)明專利,該發(fā)明公開了一種面向社交媒體的敏感數(shù)據(jù)發(fā)現(xiàn)方法,通過主題模型與詞向量模型,利用詞語相似度與文檔中的詞共現(xiàn)信息,實現(xiàn)弱監(jiān)督的文本分類算法,通過依靠實現(xiàn)設(shè)定少量敏感信息相關(guān)的關(guān)鍵詞,結(jié)合大規(guī)模語料訓(xùn)練的詞向量,來對敏感信息進行分類過濾,高效率、低成本地解決社交媒體敏感數(shù)據(jù)發(fā)現(xiàn)問題,但是該專利沒有考慮噪音數(shù)據(jù)對模型的干擾;例如,專利申請?zhí)枮镃N202011362711.5的發(fā)明專利,該專利公開了一種基于多任務(wù)多示例的遠程監(jiān)督關(guān)系抽取方法,采用多任務(wù)和多示例的學(xué)習(xí)架構(gòu),以及Word2vec詞向量預(yù)訓(xùn)練和多示例的句子級別注意力機制方法進行遠程監(jiān)督關(guān)系抽取,具體包括:數(shù)據(jù)預(yù)處理、輸入表征、抽象語義表示、實體類型表征和多任務(wù)多示例關(guān)系抽取等步驟;該發(fā)明有效解決了噪聲、訓(xùn)練不充分和數(shù)據(jù)的類不均衡問題,有效降低噪聲對分類的影響,提高真實句子對分類的貢獻,對緩解噪聲和NA對分類的影響,具有一定的實用價值。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海明略人工智能(集團)有限公司,未經(jīng)上海明略人工智能(集團)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110558876.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 在即時通信中提供即時監(jiān)督功能的方法及系統(tǒng)
- 一種監(jiān)督事件的生成裝置
- 一種資產(chǎn)托管監(jiān)督任務(wù)的處理方法及裝置
- 一種監(jiān)督方法及裝置
- 基于自監(jiān)督學(xué)習(xí)的標簽比例學(xué)習(xí)模型的訓(xùn)練方法和設(shè)備
- 一種衛(wèi)生監(jiān)督對象尋址方法、電子設(shè)備及存儲介質(zhì)
- 一種機器人表情調(diào)用方法和家用機器人
- 計算機視覺訓(xùn)練系統(tǒng)和用于訓(xùn)練計算機視覺系統(tǒng)的方法
- 一種基于廠區(qū)智能管理系統(tǒng)的工廠設(shè)備監(jiān)督系統(tǒng)
- 信息化綜合監(jiān)督系統(tǒng)及方法





