[發明專利]句子噪聲設計方法、設備及計算機存儲介質有效
| 申請號: | 202110051556.3 | 申請日: | 2021-01-15 |
| 公開(公告)號: | CN112380845B | 公開(公告)日: | 2021-04-09 |
| 發明(設計)人: | 楊孫傲;鐘曉雄;張偉哲;周穎;程正濤 | 申請(專利權)人: | 鵬城實驗室 |
| 主分類號: | G06F40/247 | 分類號: | G06F40/247;G06F40/211;G06F40/194;G06F40/289;G06N3/04;G06N3/08 |
| 代理公司: | 深圳市世紀恒程知識產權代理事務所 44287 | 代理人: | 晏波 |
| 地址: | 518000 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 句子 噪聲 設計 方法 設備 計算機 存儲 介質 | ||
本發明公開了一種句子噪聲設計方法、設備及計算機存儲介質,該方法包括以下步驟:對原始文本進行預處理,生成第一噪聲文本;基于自適應滑動窗口計算所述第一噪聲文本與預加載語料庫中的文本之間句子結構相似度,并利用所述句子結構相似度對所述第一噪聲文本執行流暢度優化處理,獲得流暢度符合預設條件的第二噪聲文本;采用深度學習模型對所述第二噪聲文本進行預測,若預測值與采用深度學習模型對原始文本的預測值不同,則以所述第二噪聲文本為目標結果。本發明解決了噪聲文本流暢度不高的問題,實現在基于迭代方式定位與噪聲詞注入攻擊基礎上,加入了生成噪聲流暢度優化算法,使得生成的噪聲文本更加符合正確語法與人類閱讀習慣。
技術領域
本發明涉及自然語言處理領域,尤其涉及一種句子噪聲設計方法、設備及計算機存儲介質。
背景技術
對抗樣本是指在輸入樣本中故意添加細微干擾,導致模型輸出一個置信度較高的錯誤結果,其在圖像與語音領域取得了一些成果,然而在文本領域,由于其離散特質,仍然面臨諸多挑戰。對于自然語言處理攻擊模型來說,不僅僅是需要能夠欺騙目標模型,對于其生成的對抗樣本需要滿足三個屬性
(1)人預測一致性,即人類對輸入文本的預測保持不變;
(2)語義的相似性,生成的對抗樣本應該盡可能與原文本保持相似的含義。
(3)句子流暢度,生成的文本應該讀上去自然且語法正確。
目前許多攻擊模型存在如下缺點:
(1)由于文本的離散特性,噪聲注入后效果不像語音、圖像那樣直觀,有的對抗文本哪怕欺騙過了檢測模型,從語義上也給人一種難以理解的感覺。
(2)目前很多文本對抗算法,噪聲注入比較粗糙,無法保持對應單詞在句子中的形式,比如第三人稱,動詞ing形式,數詞的基數詞與序數詞等,導致生成的對抗文本讀起來存在語法錯誤,影響了句子的流暢度。
發明內容
有鑒于此,提供一種句子噪聲設計方法、設備及計算機存儲介質,解決噪聲文本流暢度不高的問題。
本申請實施例提供了一種句子噪聲設計方法,所述方法包括:
對原始文本進行預處理,生成第一噪聲文本;
基于自適應滑動窗口計算所述第一噪聲文本與預加載語料庫中的文本之間句子結構相似度,并利用所述句子結構相似度對所述第一噪聲文本執行流暢度優化處理,獲得流暢度符合預設條件的第二噪聲文本;
采用深度學習模型對所述第二噪聲文本進行預測,若預測值與采用深度學習模型對原始文本的預測值不同,則以所述第二噪聲文本為目標結果。
在一實施例中,所述對原始文本進行預處理,生成第一噪聲文本,包括:
計算原始文本中每個詞的概率值;
基于所述概率值,獲得每個詞的重要度;
基于所述重要度,獲得所述重要度大于第一預設閾值的候選詞;
使用噪聲詞替換所述候選詞,生成所述第一噪聲文本;其中噪聲詞為利用余弦相似度計算方法在同義詞詞典中獲得的所述候選詞的同義詞。
在一實施例中,所述利用所述句子結構相似度對所述第一噪聲文本執行流暢度優化處理,包括:
獲得預設數量個所述句子結構相似度大于第二預設閾值的相似句子結構文本;
獲得所述相似句子結構文本中與所述第一噪聲文本的噪聲詞對應位置的對應詞;
基于第一預設規則對所述對應詞進行詞形標注以及詞性標注;
基于預設的統計方法對所述對應詞的詞形及詞性進行統計,以獲得所述第一噪聲文本的噪聲詞位置的確定詞形及確定詞性;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鵬城實驗室,未經鵬城實驗室許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110051556.3/2.html,轉載請聲明來源鉆瓜專利網。





