[發明專利]一種基于語句改寫的面向端到端對話的數據增強方法有效
| 申請號: | 202010151751.9 | 申請日: | 2020-03-06 |
| 公開(公告)號: | CN111522921B | 公開(公告)日: | 2023-06-02 |
| 發明(設計)人: | 胡若云;王正國;沈然;呂詩寧;江俊軍;丁麒;朱斌;孫鋼;金良峰;汪一帆;谷泓杰 | 申請(專利權)人: | 國網浙江省電力有限公司營銷服務中心;國網浙江玉環市供電有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/33;G06F16/36;G06N3/0442 |
| 代理公司: | 浙江翔隆專利事務所(普通合伙) 33206 | 代理人: | 王曉燕 |
| 地址: | 311100 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 語句 改寫 面向 端到端 對話 數據 增強 方法 | ||
本發明公開了一種基于語句改寫的面向端到端對話的數據增強方法,涉及一種數據處理方法。目前現場增強難以實現系統層面的整體優化。本發明通過構建并訓練一個語句改寫模型來擴充對話生成模型的訓練數據,通過定義用戶語句的對話功能來構造語句改寫模型的訓練參考;采用基于序列到序列的框架,使用兩個解碼器依次解碼前一輪系統對話動作和改寫后的用戶語句,前一輪系統對話動作可以為用戶語句的改寫提供對話歷史背景,使得生成的改寫語句更加符合對話語境。本技術方案在語句改寫模型和對話生成模型的解碼器之間加入了注意機制,實現端到端對話系統的搭建,并使得改寫語句可以直接輔助對話生成,同時對話生成的結果也可以監督語句改寫模型的訓練。
技術領域
本發明涉及一種數據處理方法,尤其涉及一種基于語句改寫的面向端到端對話的數據增強方法。
背景技術
搭建基于自然語言的智能對話系統來與人類進行交流,是人工智能的一個重要研究目標。對話系統的種類多樣,其中,任務型對話系統能夠協助人類完成特定領域下的特定任務,因而在電子客服、個人助理、自助終端等業務中有廣泛的應用前景,得到了研究界和工業界的重點關注。一般而言,任務型對話系統需要構建并訓練一個面向某個或某些特定領域的對話生成模型,來為輸入的用戶語句產生相應的有關特定任務的系統回復。隨著深度學習的日趨成熟,神經網絡模型被成功地應用到了對話生成模型的構建當中,使得基于神經網絡的模塊化結構成為了主流的構建對話生成模型的解決方案。
這種模塊化的模型結構可以描述為:首先用戶語句被送入自然語言理解模塊進行領域檢測、用戶意圖檢測和語義解析,得到的語義標簽;然后識別結果送入對話狀態跟蹤模塊,進行多輪信息的整合,得到當前對話輪次的對話狀態表示;接下來,根據對話狀態進行數據庫的查詢,搜索用戶希望查詢的信息,送入對話策略選擇模塊中,確定系統的回復策略(稱為系統對話動作);最后,系統根據所選擇的系統動作,在自然語言生成模塊中生成符合人類語言習慣的自然語言回復。特別地,Lei在2018年提出了一種基于復制機制的兩階段序列到序列(seq2seq)模型Sequicity,或稱TSCP,該模型通過一個統一的seq2seq架構完成了自然語言理解、對話狀態跟蹤和自然語言生成這三個模塊的功能,并在公開的單領域數據集上取得了很好的實驗結果。之后,Zhang在2019年對TSCP進行改進并提出了模型DAMD,該模型在seq2seq架構中加入了對話策略選擇模塊的功能,實現了多領域自適應對話,并在公開的多領域數據集上取得了很好的實驗結果。
然而,訓練這種基于神經網絡的對話生成模型通常需要大量的高質量的對話文本數據。由于需要尋找并記錄在特定領域的特定任務中人與人或人與機器之間的對話,收集這樣的訓練數據是十分困難且耗費時間的。即使獲得了足夠多的對話文本記錄,我們還需要對這些文本進行標注,以便更好地指導對話生成模型的訓練。這種標注通常需要招募大量的工人完成,因而非常耗費人力和資金。這些困難造成了高質量對話文本的稀缺,從而限制了對話系統性能的提升。
對此,數據增強技術旨在構建模型自動地產生更多的訓練樣本,從而緩解訓練數據缺乏的問題。然而,現階段人們提出的一系列面向文本的數據增強方法都只是針對于獨立的單個語句,并沒有考慮語句在一段對話中所處的語境,因而直接應用于對話文本的數據擴充時效果較差。
目前,針對于文本的數據增強方法中最為常用的是語句改寫,這種方法試圖在不改變語義的條件下改寫文本中的句子,從而生成更多的語句用以擴充文本數據。但是,現有的基于語句改寫的數據增強方法都是單獨訓練一個語句改寫模型用以擴充數據,再使用擴充后的數據單獨訓練目標模型。這種依賴于多訓練階段的方法會導致訓練誤差在不同的模型間累積,難以實現系統層面的多模型的整體優化,因而限制了數據增強的效果。
總結:目前的面向文本的數據增強方法存在以下問題:
(1)大部分現有的端到端對話系統在訓練對話生成模型時,都需要有關特定領域內特定任務的大量的有標注的對話文本數據,但人工搜集并標注這樣的文本數據實施困難且開銷較大。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國網浙江省電力有限公司營銷服務中心;國網浙江玉環市供電有限公司,未經國網浙江省電力有限公司營銷服務中心;國網浙江玉環市供電有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010151751.9/2.html,轉載請聲明來源鉆瓜專利網。





