[發明專利]從翻譯源原文生成相似文的方法、記錄介質、裝置以及系統有效
| 申請號: | 201710674166.5 | 申請日: | 2017-08-09 |
| 公開(公告)號: | CN107870901B | 公開(公告)日: | 2023-05-12 |
| 發明(設計)人: | 山內真樹;藤原菜菜美;今出昌宏 | 申請(專利權)人: | 松下知識產權經營株式會社 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/279 |
| 代理公司: | 北京市中咨律師事務所 11247 | 代理人: | 段承恩;徐健 |
| 地址: | 日本*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 翻譯 原文 生成 相似 方法 記錄 介質 裝置 以及 系統 | ||
1.一種方法,是從翻譯源原文生成相似文的方法,包括:
輸入第1文;
從第1數據庫提取與構成所述第1文的多個詞句中的第1詞句具有相同意思的一個以上的第2詞句,所述第1數據庫將詞句與所述第1數據庫所包含的詞句的近義詞句進行關聯;
根據基于第2數據庫所獲得的與所述一個以上的第2詞句對應的語境依賴值來算出N-gram值,所述第2數據庫將詞句與對應于所述第2數據庫所包含的詞句的所述語境依賴值進行關聯,所述語境依賴值表示所述第2數據庫包含的詞句所表示的意思依賴于語境的程度;
從在所述第1文中將所述第1詞句替換成所述一個以上的第2詞句而得到的一個以上的第2文中,提取與所述N-gram值相當的數量的、包括所述第2詞句在內的連續的一個以上的第3詞句;
對所述一個以上的第3詞句,算出在第3數據庫中的出現頻度,所述第3數據庫將詞句與所述第3數據庫所包含的詞句在所述第3數據庫中的出現頻度進行關聯;
判定算出的所述出現頻度是否在閾值以上;
在判定為算出的所述出現頻度在所述閾值以上的情況下,采用所述一個以上的第2文作為所述第1文的相似文,并輸出給外部的設備。
2.根據權利要求1所述的方法,
所述第1文用第1語言記述,
所述第1文包含于對譯語料庫,所述對譯語料庫包括多個成對的用第1語言記述的文和用第2語言記述的對譯文,
所述方法還包括:
在判定為算出的所述出現頻度在所述閾值以上的情況下,將所述一個以上的第2文作為所述第1文的相似文追加到所述對譯語料庫中。
3.根據權利要求1或2所述的方法,
所述第3數據庫包括N-gram語言模型數據庫,
所述方法還包括:
根據所述語境依賴值,將所述N-gram語言模型的N決定為i,在此,i為正整數;
通過查對所述第3數據庫,求取包括所述第2詞句的i-gram的出現頻度;
基于包括所述第2詞句的i-gram的出現頻度,判定是否采用所述一個以上的第2文作為所述第1文的相似文。
4.根據權利要求1或2所述的方法,還包括:
使用翻譯模型對預定的翻譯對象文進行翻譯并制作翻譯結果文,所述翻譯模型基于被判定為作為所述第1文的相似文來采用的所述一個以上的第2文、和將生成了所述一個以上的第2文的所述第1文用第2語言進行翻譯所得到的翻譯文而生成;
評價所述翻譯結果文;
基于所述翻譯結果文的評價結果,生成反饋信息,所述反饋信息包括關于所述翻譯對象文的語言和/或所述翻譯結果文的語言的語言信息、以及對于所述語言信息的評價信息。
5.根據權利要求4所述的方法,
使用所述反饋信息對所述第1數據庫、所述第2數據庫和所述第3數據庫中的至少一方進行更新。
6.根據權利要求4所述的方法,
在所述反饋信息包括具有語境依賴性的所述第2詞句的情況下,對所述第2數據庫以及所述第3數據庫進行更新。
7.根據權利要求4所述的方法,
在所述反饋信息包括新的文表達的情況下,根據所述文表達來改變所述第2數據庫的語境依賴值。
8.根據權利要求4所述的方法,
在所述反饋信息包括新的文表達的情況下,更新所述第3數據庫以使其包括所述文表達。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于松下知識產權經營株式會社,未經松下知識產權經營株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710674166.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:提供翻譯文的方法、裝置以及記錄介質
- 下一篇:神經機器翻譯系統





