[發(fā)明專利]語言處理方法及裝置、語言處理系統(tǒng)的訓練方法及裝置有效
| 申請?zhí)枺?/td> | 201910867015.0 | 申請日: | 2019-09-12 |
| 公開(公告)號: | CN110598222B | 公開(公告)日: | 2023-05-30 |
| 發(fā)明(設計)人: | 徐智濤;唐劍波;李長亮;郭馨澤 | 申請(專利權)人: | 北京金山數(shù)字娛樂科技有限公司;成都金山數(shù)字娛樂科技有限公司 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06N3/0442;G06N3/0455;G06N3/0464;G06N3/08 |
| 代理公司: | 北京智信禾專利代理有限公司 11637 | 代理人: | 王治東 |
| 地址: | 100085 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語言 處理 方法 裝置 系統(tǒng) 訓練 | ||
1.一種語言處理系統(tǒng)的訓練方法,其特征在于,所述方法包括:
將樣本段落中的多個待翻譯樣本語句及對應的翻譯樣本語句作為平行語料輸入至翻譯模型進行訓練,直至滿足翻譯模型的訓練停止條件;
將所述樣本段落中包含連接詞的翻譯樣本語句中的連接詞更換為連接標記,將未包含連接詞的所述翻譯樣本語句中插入所述連接標記,生成每個翻譯樣本語句對應的標記翻譯樣本語句;
將多個所述標記翻譯樣本語句輸入至語言模型進行訓練,直至滿足語言模型的訓練停止條件,其中,所述語言模型將所述連接標記刪除或替換為對應的最終連接詞,得到每個標記翻譯樣本語句對應的最終翻譯樣本語句。
2.如權利要求1所述的方法,其特征在于,所述語言模型的訓練停止條件,包括:
根據(jù)所述最終翻譯樣本語句計算所述語言模型的困惑度,直至所述困惑度小于閾值。
3.一種語言處理方法,其特征在于,所述方法包括:
將包括多個待翻譯語句的目標段落輸入翻譯模型,得到每個待翻譯語句對應的翻譯語句;
將包含連接詞的翻譯語句中的所述連接詞替換為連接標記,將不包含連接詞的翻譯語句中插入所述連接標記,生成每個翻譯語句對應的標記翻譯語句;
將多個所述標記翻譯語句輸入語言模型,所述語言模型將所述連接標記刪除或替換為對應的最終連接詞,得到每個標記翻譯語句對應的最終翻譯語句,其中,所述語言模型根據(jù)權利要求1—2任一項所述的語言處理系統(tǒng)的訓練方法而得到;
根據(jù)每個標記翻譯語句對應的最終翻譯語句拼接得到翻譯段落。
4.如權利要求3所述的方法,其特征在于,所述翻譯模型包括編碼器和解碼器;
將包括多個待翻譯語句的目標段落輸入翻譯模型,得到每個待翻譯語句對應的翻譯語句,包括:
將每個待翻譯語句輸入編碼器,得到編碼器輸出的編碼向量;
將所述編碼向量和參考解碼向量輸入至解碼器,得到解碼器輸出的解碼向量;
將所述解碼向量進行線性化和歸一化處理,生成對應的翻譯語句。
5.如權利要求3所述的方法,其特征在于,將包含連接詞的翻譯語句中的所述連接詞替換為連接標記,將不包含連接詞的翻譯語句中插入所述連接標記,包括:
對所述翻譯語句進行預處理,判斷所述翻譯語句是否包含連接詞;
若是,將包含連接詞的翻譯語句中的所述連接詞替換為所述連接標記;
若否,在所述不包含連接詞的翻譯語句的起始位置插入所述連接標記。
6.如權利要求3所述的方法,其特征在于,將多個所述標記翻譯語句輸入語言模型,所述語言模型將所述連接標記刪除或替換為對應的最終連接詞,得到每個標記翻譯語句對應的最終翻譯語句,包括:
S1、所述語言模型依次根據(jù)所述連接標記的相鄰標記翻譯語句,判斷所述連接標記是否對應有連接詞;
S2、若是,所述語言模型將所述連接標記替換為對應的最終連接詞;
S3、若否,所述語言模型將所述連接標記刪除;
S4、所述語言模型判斷連接標記是否處理完畢,若否,執(zhí)行步驟S1,若是,執(zhí)行步驟S5;
S5、根據(jù)處理后的連接標記,得到每個標記翻譯語句對應的最終翻譯語句。
7.一種語言處理系統(tǒng)的訓練裝置,其特征在于,包括:
第一訓練模塊,被配置為將樣本段落中的多個待翻譯樣本語句及對應的翻譯樣本語句作為平行語料輸入至翻譯模型進行訓練,直至滿足翻譯模型的訓練停止條件;
翻譯樣本語句標記模塊,被配置為將所述樣本段落中包含連接詞的翻譯樣本語句中的連接詞更換為連接標記,將未包含連接詞的所述翻譯樣本語句中插入所述連接標記,生成每個翻譯樣本語句對應的標記翻譯樣本語句;
第二訓練模塊,被配置為將多個所述標記翻譯樣本語句輸入至語言模型進行訓練,直至滿足語言模型的訓練停止條件,其中,所述語言模型將所述連接標記刪除或替換為對應的最終連接詞,得到每個標記翻譯樣本語句對應的最終翻譯樣本語句。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京金山數(shù)字娛樂科技有限公司;成都金山數(shù)字娛樂科技有限公司,未經(jīng)北京金山數(shù)字娛樂科技有限公司;成都金山數(shù)字娛樂科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910867015.0/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。





