[發明專利]源語言改寫處理方法和設備及機器翻譯系統無效
| 申請號: | 201110305010.2 | 申請日: | 2011-09-27 |
| 公開(公告)號: | CN103020040A | 公開(公告)日: | 2013-04-03 |
| 發明(設計)人: | 張潔;葛乃晟;鄭仲光;孟遙;于浩 | 申請(專利權)人: | 富士通株式會社 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 陳煒;李德山 |
| 地址: | 日本神*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語言 改寫 處理 方法 設備 機器翻譯 系統 | ||
1.一種源語言改寫處理方法,包括:
對源語言語句中的待處理語句進行語法分析;
根據語法分析結果確定所述待處理語句中的包含子句嵌套結構的語句;
基于所述語法分析結果對所確定的包含子句嵌套結構的語句進行重構,以獲得至少一個包含非嵌套子句的語句;以及
用所獲得的至少一個包含非嵌套子句的語句中的、含有最多非嵌套子句的語句來替換所述包含子句嵌套結構的語句。
2.根據權利要求1所述的源語言改寫處理方法,在進行語法分析的步驟之前還包括步驟:從源語言語句中篩選滿足下列條件的語句作為所述待處理語句:
語句中的謂詞總數高于第一預設閾值;以及
語句中的總詞數高于第二預設閾值。
3.根據權利要求1所述的源語言改寫處理方法,其中,對所述包含子句嵌套結構的語句進行重構的步驟進一步包括:
基于所述語法分析結果,將所述包含子句嵌套結構的語句拆分為非嵌套子句和剩余的多個句子成分;以及
對所述非嵌套子句和所述多個句子成分進行調序,作為調序的結果,獲得至少一個包含非嵌套子句的語句。
4.根據權利要求3所述的源語言改寫處理方法,其中,所述調序步驟進一步包括:
將拆分后得到的非嵌套子句作為整體在整個語句中逐次向右調序,或者將拆分后的除非嵌套子句之外的其他句子成分在整個語句中逐次向左調序。
5.根據權利要求1所述的源語言改寫處理方法,其中,所述用含有最多非嵌套子句的語句來替換所述包含子句嵌套結構的語句的步驟進一步包括:
在所述至少一個包含非嵌套子句的語句中的含有最多非嵌套子句的語句的個數大于1的情況下,利用預定語言模型對每個所述含有最多非嵌套子句的語句進行評分,并選擇其中得分最高的語句來替換所述包含子句嵌套結構的語句。
6.根據權利要求1-5中任意一項所述的源語言改寫處理方法,還包括以下步驟:
對要進行語義搭配異常處理的語句進行語義角色自動標注,以確定語句中的語義搭配出現異常的詞語對;
把語義搭配異常的詞語對中的具有較多詞義項數的一個詞語確定為導致語義搭配異常的主要元素詞語;以及
從預先存儲的語料庫中獲得與所述詞語對中的另一個詞語搭配頻率高于預設閾值的多個詞語,并用所述多個詞語中的與所述詞語對相關度最高的一個詞語來替換所述詞語對中的主要元素詞語。
7.根據權利要求1-6中任意一項所述的源語言改寫處理方法,還包括:
確定要進行多義詞歧義消除處理的語句中的多義詞;
根據語境含義確定每個多義詞在語句中的唯一義項;以及
用預先存儲的字典中的與所確定的義項對應的一個詞語替換與該義項有關的多義詞。
8.根據權利要求1-7中任意一項所述的源語言改寫處理方法,其中,所述源語言語句是要進行機器翻譯的語句。
9.一種源語言改寫處理設備,包括:
語法分析單元,被配置用于對源語言語句中的待處理語句進行語法分析,并根據語法分析結果確定所述待處理語句中的包含子句嵌套結構的語句;以及
語句重構單元,被配置用于基于所述語法分析結果對所確定的包含子句嵌套結構的語句進行重構,以獲得至少一個包含非嵌套子句的語句,并用所述至少一個包含非嵌套子句的語句中的含有最多非嵌套子句的語句來替換所述包含子句嵌套結構的語句。
10.一種機器翻譯系統,包含根據權利要求9所述的源語言改寫處理設備。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于富士通株式會社,未經富士通株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110305010.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:窗口化顯示RSS摘要的方法及裝置
- 下一篇:一種公文標準化校驗系統





