[發明專利]計算句子相似度的方法和裝置以及機器翻譯的方法和裝置有效
| 申請號: | 201110303522.5 | 申請日: | 2011-10-09 |
| 公開(公告)號: | CN103034627A | 公開(公告)日: | 2013-04-10 |
| 發明(設計)人: | 劉占一;吳華;王海峰 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28 |
| 代理公司: | 北京鴻德海業知識產權代理事務所(普通合伙) 11412 | 代理人: | 袁媛 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 計算 句子 相似 方法 裝置 以及 機器翻譯 | ||
【技術領域】
本發明涉及計算機技術領域,特別涉及一種計算句子相似度的方法和裝置以及機器翻譯的方法和裝置。
【背景技術】
句子相似度計算在問題檢索、雙語例句檢索、機器翻譯、文檔文摘等領域都有很重要的應用價值,其中采用怎樣的句子相似度計算方法能夠準確地體現兩個句子之間的相似狀況是影響上述應用質量的關鍵。
舉一個在機器翻譯技術中的應用,在機器翻譯技術中通常使用預處理過的雙語例句作為主要翻譯資源,通過編輯與待翻譯句子匹配的相似例句來生成最終譯文。具體地,包括以下步驟:
1)在翻譯實例庫中搜索與待翻譯句子匹配的相似例句。
例如:待翻譯句子為:This?is?a?pencil。
相似例句為:That?is?a?pen。
2)識別待翻譯句子和相似例句之間的差異詞
This和That是差異詞,pencil和pen是差異詞。
3)將待翻譯句子中的差異詞對應的譯文作為候選譯文片段。
即“這”和“鉛筆”作為候選譯文片段。
4)在相似例句的譯文中,利用候選譯文片段替換相似例句中差異詞的譯文,得到待翻譯句子的譯文。
相似例句的譯文為:“那是一只鋼筆”,用“這”替換“那”,用“鉛筆”替換“鉛筆”,得到待翻譯句子的譯文為“這是一只鉛筆”。
由以上機器翻譯過程可以看出,如何選擇相似例句是影響翻譯質量高低的關鍵因素。
現有的句子相似度計算通常采用計算句子之間編輯距離的方式,編輯距離由從一個句子轉換到另一個句子所需要的最少操作數目確定,所述操作可以包括:插入、刪除或替換等,如果兩個句子之間的編輯距離越小,則確定兩個句子之間的相似度越高,但這種方式會存在一定缺陷。
例如,如果待翻譯句子為:Can?I?take?a?picture?of?the?painting?
通過計算編輯距離方式選擇的相似例句為:Can?I?take?a?picture?of?the?car?
利用該相似例句形成的譯文為:我能為這輛油畫拍張照片嗎?
如果將句子Can?we?take?a?photo?of?the?painting作為待翻譯句子的相似例句,則形成的譯文為:我能為這幅油畫拍張照片嗎?
可以看出,雖然句子Can?we?take?a?photo?of?the?painting與待翻譯句子的編輯距離大于句子Can?I?take?a?picture?of?the?car與待翻譯句子的編輯距離,但其與待翻譯句子的相似性要高于句子Can?I?take?a?picture?of?the?car,從而形成的譯文質量也較高。
上述的問題就是因為在計算句子之間相似度時,沒有考慮兩句子差異詞之間的關系。雖然有人提出在相似度的計算中基于同義詞詞典來考慮差異詞之間的相似程度,但在很多應用下,諸如上述機器翻譯應用中,差異詞與上下文之間搭配關系相比較語義來說,在相似度計算中具有更加重要的意義,更能夠準確地體現出兩句子之間的匹配程度,對上述應用的質量影響更大。
【發明內容】
本發明提供了一種計算句子相似度的方法和裝置以及機器翻譯的方法和裝置,以便于更加準確地體現兩句子之間的匹配程度,從而提高其用于諸如機器翻譯等應用的質量。
具體技術方案如下:
一種計算句子相似度的方法,該方法包括:
A、對第一句子和第二句子進行比較,確定差異詞對;
B、利用差異詞對中差異詞與其所在第一句子或第二句子中其他詞語的搭配概率,為各差異詞打分,其中兩詞語之間的搭配概率通過查詢搭配概率模型得到,所述搭配概率模型中兩詞語之間的搭配概率由所述兩詞語在預設的語料庫中的共現次數統計得到;
C、利用差異詞對中各差異詞的打分結果,確定差異詞對的打分;
D、利用各差異詞對的打分結果,確定所述第一句子和所述第二句子的相似度。
具體地,在所述步驟B中,按照如下公式為各差異詞打分:
其中r(wi,E)為差異詞wi的打分結果,E為差異詞wi所在的第一句子或第二句子,wj為E中除wi之外的其他詞語,r(wi,wj)為wi和wj的搭配概率,m為E包含的詞語數目。
在所述步驟C中,按照如下公式為差異詞對打分:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110303522.5/2.html,轉載請聲明來源鉆瓜專利網。





