[發明專利]一種任務型對話文本增強系統在審
| 申請號: | 202011294635.9 | 申請日: | 2020-11-18 |
| 公開(公告)號: | CN112488164A | 公開(公告)日: | 2021-03-12 |
| 發明(設計)人: | 周昉昉;鄭穎龍;劉佳木;賴蔚蔚;吳廣財;鄭杰生;林嘉鑫;葉杭 | 申請(專利權)人: | 廣東電力信息科技有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F40/284;G06F40/247 |
| 代理公司: | 北京世譽鑫誠專利代理有限公司 11368 | 代理人: | 任欣生 |
| 地址: | 510030 廣東省廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 任務 對話 文本 增強 系統 | ||
本發明公開的任務型對話文本增強系統,涉及文本處理技術領域,包括同義詞替換模塊、近義詞替換模塊、實體替換模塊、噪聲注入模塊、文本混合模塊,其中,同義詞替換模塊用于用文本中各個詞的同義詞替換對應的詞,生成第一訓練數據;近義詞替換模塊用于用文本中各個詞的近義詞替換對應的詞,生成第二訓練數據;實體替換模塊用于用文本中與各個實體類型相同的實體替換對應的實體,生成第三訓練數據;噪聲注入模塊用于置空、交換、增加、刪除文本的詞,生成第四訓練數據;文本混合模塊用于混合第一訓練數據、第二訓練數據、第三訓練數據、第四訓練數據,得到第五訓練數據,緩解了訓練數據不足的問題,實現了進一步優化任務型對話系統的性能。
技術領域
本發明涉及文本處理技術領域,具體涉及一種任務型對話文本增強系統。
背景技術
任務型對話系統旨在幫助用戶完成實際具體的任務,例如幫助用戶搜索音樂、預訂航班或酒店等。
從架構上,任務型對話系統主要包括自然語言理解模塊、對話管理模塊、自然語言生成模塊。其中,自然語言理解模塊主要用于意圖識別模塊和語義填充。對話管理模塊主要用于對話狀態跟蹤和對話策略優化。自然語言生成模塊主要通過模板配置即可實現。通常來說,一個任務型對話系統包含多個意圖。當用戶輸入一句話時,意圖識別模塊首先識別用戶這句話中的意圖是是什么。然后根據意圖識別的結果,將這句話分配到對應意圖的語義填充模塊完成語義的序列標注。
數據增強通過擴大機器學習系統中訓練數據的大小來解決數據不足問題。數據增強在諸如圖像分類、語音識別等領域得到了一些應用,但較少用在任務型對話領域。在構建任務型對話系統的過程中,訓練數據的稀缺一直是個問題,制約了任務型對話系統的性能優化進程。
發明內容
為解決現有技術的不足,本發明實施例提供了一種任務型對話文本增強系統,該系統包括同義詞替換模塊、近義詞替換模塊、實體替換模塊、噪聲注入模塊、文本混合模塊,其中:
所述同義詞替換模塊,用于用文本中各個詞的同義詞替換對應的詞,生成第一訓練數據;
所述近義詞替換模塊,用于用文本中各個詞的近義詞替換對應的詞,生成第二訓練數據;
所述實體替換模塊,用于用文本中與各個實體類型相同的實體替換對應的實體,生成第三訓練數據;
所述噪聲注入模塊,用于置空、交換、增加、刪除文本的詞,生成第四訓練數據;
所述文本混合模塊,用于混合所述第一訓練數據、所述第二訓練數據、所述第三訓練數據、所述第四訓練數據,得到第五訓練數據。
優選地,所述文本混合模塊,具體用于:
利用Mixup算法,混合所述第一訓練數據、所述第二訓練數據、所述第三訓練數據、所述第四訓練數據。
優選地,所述近義詞替換模塊還用于利用訓練過的Word2Vec模型及訓練過的GloVe模型,獲取文本中各個詞的近義詞。
優選地,所述實體替換模塊還用于,利用條件隨機場CRF模型獲取文本中的實體。
本發明實施例提供的任務型對話文本增強系統,具有以下有益效果:
引入多種數據增強方案優化任務型對話系統的自然語言理解,緩解了訓練數據不足的問題,能夠優化任務型對話系統的性能。
具體實施方式
以下結合具體實施例對本發明作具體的介紹。
本發明提供的實施例提供的任務型對話文本增強系統,包括同義詞替換模塊、近義詞替換模塊、實體替換模塊、噪聲注入模塊、文本混合模塊,其中:
同義詞替換模塊用于用文本中各個詞的同義詞替換對應的詞,生成第一訓練數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東電力信息科技有限公司,未經廣東電力信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011294635.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種空氣炮教具
- 下一篇:一種故障定位硬件在環仿真系統設計方法





