[發明專利]一種確定多義詞詞義的方法有效
| 申請號: | 201410821314.8 | 申請日: | 2014-12-25 |
| 公開(公告)號: | CN104572633A | 公開(公告)日: | 2015-04-29 |
| 發明(設計)人: | 江潮;張芃 | 申請(專利權)人: | 語聯網(武漢)信息技術有限公司 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28 |
| 代理公司: | 北京康盛知識產權代理有限公司 11331 | 代理人: | 張宇峰 |
| 地址: | 430073 湖北省武漢市東湖開發區光谷軟件*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 確定 多義詞 詞義 方法 | ||
技術領域
本發明屬于翻譯技術領域,尤其是一種確定多義詞詞義的方法。
背景技術
由于大量的詞匯都具有多義性,對于此類詞匯的準確翻譯,即便是具有扎實的語言和專業基礎的翻譯人員也難免在翻譯過程中出現疏漏。以往為提高此類詞匯翻譯的準確率,需通過提高翻譯人員的翻譯水平和增加審校、質檢來實現,不但提高了翻譯門檻,降低了翻譯效率,而且依然無法完全杜絕該類詞匯的翻譯錯譯。
發明內容
本發明的目的之一是提供一種確定多義詞詞義的方法,以解決現有技術中對于多義詞的翻譯效率低的問題。
在一些說明性實施例中,所述確定多義詞詞義的方法,包括:獲取待判定詞義的多義詞w的關聯文本,并從所述關聯文本中找出其具有的詞匯w的特征詞;以找出的所述特征詞在用于判定詞義的決策樹中,按照所述決策樹的生成順序依次進行判定;根據判定結果,確定所述詞匯w當前應采用的詞義。
與現有技術相比,本發明的說明性實施例包括以下優點:
本發明提高了多義詞在不同文體和語境下的翻譯準確性,降低了多義詞類文本翻譯的門檻,提升了翻譯效率,大大節省了人力物力。
附圖說明
此處所說明的附圖用來提供對本發明的進一步理解,構成本申請的一部分,本發明的示意性實施例及其說明用于解釋本發明,并不構成對本發明的不當限定。在附圖中:
圖1是按照本發明的說明性實施例的流程圖;
圖2是按照本發明的說明性實施例的流程圖;
圖3是按照本發明的說明性實施例的決策樹示例圖;
圖4是按照本發明的說明性實施例的決策樹示例圖;
圖5是按照本發明的說明性實施例的決策樹示例圖。
具體實施方式
在以下詳細描述中,提出大量特定細節,以便于提供對本發明的透徹理解。但是,本領域的技術人員會理解,即使沒有這些特定細節也可實施本發明。在其它情況下,沒有詳細描述眾所周知的方法、過程、組件和電路,以免影響對本發明的理解。
如圖1所示,公開了一種確定多義詞詞義的方法,包括:
S11、獲取待判定詞義的多義詞w的關聯文本,并從所述關聯文本中找出其具有的詞匯w的特征詞;
S12、以找出的所述特征詞在用于判定詞義的決策樹中,按照所述決策樹的生成順序依次進行判定;
S13、根據判定結果,確定所述詞匯w當前應采用的詞義。
本發明提高了多義詞在不同文體和語境下的翻譯準確性,降低了多義詞類文本翻譯的門檻,提升了翻譯效率,大大節省了人力物力。
在一些說明性實施例中,所述獲取待判定詞義的多義詞w的關聯文本,并從所述關聯文本中找出其具有的詞匯w的特征詞之前,還包括:從語料庫中隨機選取一定數量的、包含詞匯w的特定段落;對選取的所述特定段落進行至少一次數據篩選,篩選確定出所述詞匯w的所述特征詞。
其中,所述特定段落為詞匯w在語料庫中的所在句、所在的自然段或詞匯w在語料庫中前后一定范圍的詞匯集合。
如圖2所示,在一些說明性實施例中,所述對選取的所述特定段落進行至少一次數據篩選,篩選確定出所述詞匯w的所述特征詞,具體包括:
S21、對選取的每個特定段落進行分詞處理,去除其中的停用詞,將剩余的詞匯作為候選關聯詞;
具體包括:保留為名稱、動詞、形容詞、副詞、習語或縮略語的詞匯。
其中,通過對停用詞的去除,降低了不相關詞匯對特征詞的選取的噪聲影響,提高了得到的特征詞的可靠性和準確性。
S22、保留出現概率高于第一閾值的候選關聯詞作為關聯詞,并計算出每個所述關聯詞與詞匯w的每個詞義的互信息;
其中,通過去除詞頻低的詞匯,可以有效的確定針對于詞匯w的更加相關的詞匯,進一步提高了得到的特征詞的可靠性和準確性。
S23、將得到的所述互信息高于第二閾值的關聯詞作為與該詞義具有對應關系的所述特征詞。
其中,互信息是計算語言學模型分析的常用方法,可以更有效的篩選出與詞匯w的詞義更加相關聯的詞匯,確定特征詞,大大提高了得到的特征詞的可靠性和準確性。
在一些說明性實施例中,所述計算出每個所述關聯詞與詞匯w的每個詞義為互信息,具體包括:
按照如下公式計算出第i個詞義mi和第j個關聯詞wj的互信息I(mi,wj):
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于語聯網(武漢)信息技術有限公司,未經語聯網(武漢)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410821314.8/2.html,轉載請聲明來源鉆瓜專利網。





