[發明專利]基于反向翻譯的口語文本增強方法及系統有效
| 申請號: | 202010279905.2 | 申請日: | 2020-04-10 |
| 公開(公告)號: | CN111507114B | 公開(公告)日: | 2023-04-18 |
| 發明(設計)人: | 楊柳 | 申請(專利權)人: | 思必馳科技股份有限公司 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/289;G06N3/0442;G06N3/08 |
| 代理公司: | 北京商專永信知識產權代理事務所(普通合伙) 11400 | 代理人: | 黃謙;車江華 |
| 地址: | 215123 江蘇省蘇州市蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 反向 翻譯 口語 文本 增強 方法 系統 | ||
本發明實施例提供一種基于反向翻譯的口語文本增強方法。該方法包括:通過帶有第一標簽集合的口語文本訓練標簽預測模型;將帶有第一標簽集合的口語文本翻譯成其他語言后,再進行反向翻譯,生成多條增強口語文本;基于標簽預測模型對多條增強口語文本進行標簽預測,確定多條增強口語文本各自對應的第二標簽集合;分別判斷第一標簽集合內的標簽,在多個增強口語文本各自對應的第二標簽集合中是否丟失,當存在標簽丟失時,將刪除丟失標簽的第一標簽集合確定為增強口語文本的有效標簽集合。本發明實施例還提供一種基于反向翻譯的口語文本增強系統。本發明實施例有效對數據進行擴充增強,尤其對于小數據場景,效果明顯,避免噪聲的引入。
技術領域
本發明涉及自然語言處理領域,尤其涉及一種基于反向翻譯的口語文本增強方法及系統。
背景技術
數據增強在計算機視覺領域應用已經十分廣泛,這是由于圖像是連續的,更容易從原有數據來產生新的數據。而自然語言本身是離散的,輕微的改動很可能會改變整句話的含義,因此數據增強在自然語言處理領域應用還比較少。在自然語言處理不同的場景中,當缺少或沒有數據的時候,一般會采用規則系統來冷啟動,然后收集線上數據,作為數據集。而當需要對數據集進行增強的時候,更多也是采用隨機交換、隨機刪除等較為簡單的方式進行增強。
在實現本發明過程中,發明人發現相關技術中至少存在如下問題:
在進行增強時,通常會使用:同義詞替換、隨機插入、隨機交換、隨機刪除、文檔裁剪、預訓練模型、反向翻譯這些方法。然而同義詞替換和隨機插入會使得增強的句子具有非常相似的詞向量,因此語言模型會將處理前后的兩個句子當作相同的句子,從而數據集并沒有得到擴充。隨機交換只是對于詞的順序作了調整,增強效果十分有限。隨即刪除可能會刪除某些關鍵詞,改變句子含義,從而引入噪聲。文檔裁剪只適用于比較長的文檔,適用場景有限。預訓練模型的訓練代價高昂。
對于反向翻譯,在多標簽文本分類任務中,每一個文本可能有一個或者多個標簽。采用普通的反向翻譯,由于機器翻譯不是完全準確,從而可以豐富表達方式,從而擴充數據集。但同時也由于反向翻譯產生的數據和原數據不完全一致,在多標簽文本分類任務中,可能會導致一個句子經過反向翻譯處理后,只保留了語義比較強的語義,而丟失了部分弱語義。尤其在口語場景下,例如智能電話客服場景,用戶的表達很多時候非常口語化,語義也比較模糊,甚至混亂,而且由于自動語音識別不夠準確,也會引入額外的噪聲。這些都會導致一些標簽的語義是比較弱的,在反向翻譯的過程中很容易丟失。
發明內容
為了至少解決現有技術中反向翻譯在回譯后的句子可能會丟失部分標簽,從而引入噪聲的問題。
第一方面,本發明實施例提供一種基于反向翻譯的口語文本增強方法,包括:
通過帶有第一標簽集合的口語文本訓練標簽預測模型,其中,所述標簽預測模型用于預測所述口語文本的標簽集合;
將所述帶有第一標簽集合的口語文本翻譯成其他語言后,再進行反向翻譯,生成多條增強口語文本;
基于所述標簽預測模型對所述多條增強口語文本進行標簽預測,確定所述多條增強口語文本各自對應的第二標簽集合;
分別判斷所述第一標簽集合內的標簽,在所述多個增強口語文本各自對應的第二標簽集合中是否丟失,當存在標簽丟失時,將刪除丟失標簽的第一標簽集合確定為所述增強口語文本的有效標簽集合。
第二方面,本發明實施例提供一種基于反向翻譯的口語文本增強系統,包括:
預測模型訓練程序模塊,用于通過帶有第一標簽集合的口語文本訓練標簽預測模型,其中,所述標簽預測模型用于預測所述口語文本的標簽集合;
反向翻譯程序模塊,用于將所述帶有第一標簽集合的口語文本翻譯成其他語言后,再進行反向翻譯,生成多條增強口語文本;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于思必馳科技股份有限公司,未經思必馳科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010279905.2/2.html,轉載請聲明來源鉆瓜專利網。





