[發(fā)明專利]組織機(jī)構(gòu)名漢英翻譯方法在審
| 申請(qǐng)?zhí)枺?/td> | 201710779839.3 | 申請(qǐng)日: | 2017-09-01 |
| 公開(公告)號(hào): | CN108733658A | 公開(公告)日: | 2018-11-02 |
| 發(fā)明(設(shè)計(jì))人: | 李斌;楊建華;湯詩華;錢豐收;馬寧 | 申請(qǐng)(專利權(quán))人: | 安徽廣播電視大學(xué) |
| 主分類號(hào): | G06F17/28 | 分類號(hào): | G06F17/28;G06F17/27 |
| 代理公司: | 蘇州中合知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 32266 | 代理人: | 趙曉芳 |
| 地址: | 230041 安徽省*** | 國省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 組織機(jī)構(gòu) 翻譯 擴(kuò)展查詢 語塊 準(zhǔn)確度 翻譯結(jié)果 概率計(jì)算 漢英翻譯 抽取 集合 上下文無關(guān) 時(shí)間復(fù)雜度 翻譯候選 翻譯解碼 構(gòu)造查詢 檢索網(wǎng)絡(luò) 貪心算法 語塊翻譯 資源抽取 對(duì)齊 檢索詞 可信度 構(gòu)建 算法 譯文 排序 | ||
本發(fā)明公開了一種組織機(jī)構(gòu)名漢英翻譯方法,具體步驟為:獲取組織機(jī)構(gòu)名實(shí)體相應(yīng)的擴(kuò)展查詢集合;采用包含擴(kuò)展集合的新的檢索詞檢索網(wǎng)絡(luò)資源,獲取混合雙語摘要資源;從混合雙語摘要資源抽取組織機(jī)構(gòu)名實(shí)體翻譯候選并按照可信度進(jìn)行排序;得到翻譯結(jié)果;擴(kuò)展查詢方法結(jié)合了實(shí)體翻譯結(jié)果構(gòu)造查詢和共現(xiàn)主題詞譯文擴(kuò)展查詢兩種方法,并且構(gòu)建翻譯模型時(shí)采用貪心算法獲取翻譯對(duì)最優(yōu)對(duì)齊結(jié)果,提高了后續(xù)的語塊抽取及語塊翻譯概率計(jì)算的準(zhǔn)確度和效率,本發(fā)明考慮到組織機(jī)構(gòu)名的內(nèi)部結(jié)構(gòu)特點(diǎn),采用以語塊為翻譯單位建立翻譯模型,重點(diǎn)解決候選語塊的抽取及概率計(jì)算及基于上下文無關(guān)的翻譯解碼算法,降低了翻譯時(shí)間復(fù)雜度,提高了翻譯的準(zhǔn)確度和效率。
技術(shù)領(lǐng)域
本發(fā)明涉及語言翻譯領(lǐng)域,具體涉及一種組織機(jī)構(gòu)名漢英翻譯方法。
背景技術(shù)
相對(duì)于人名、地名等命名實(shí)體,組織機(jī)構(gòu)名的結(jié)構(gòu)更為復(fù)雜,因?yàn)榻M織機(jī)構(gòu)名中可能既 包含人名、地名甚至另一個(gè)機(jī)構(gòu)名。通常對(duì)組織機(jī)構(gòu)名的翻譯是采用結(jié)合音譯和意譯進(jìn)行翻 譯,同時(shí)由于結(jié)構(gòu)復(fù)雜,需要進(jìn)行一定程度的詞語調(diào)序,所以對(duì)組織機(jī)構(gòu)名翻譯不僅僅要解 決普通機(jī)器翻譯固有的問題,如詞語選擇、詞語調(diào)序,還需要解決音譯問題以及音譯和意譯 相結(jié)合的問題,因此組織結(jié)構(gòu)名的翻譯仍然是自然語言處理問題中的一個(gè)難點(diǎn),仍具有很大 的挑戰(zhàn)性。
目前,基于本地翻譯模型的組織機(jī)構(gòu)名的研究比較深入和成熟,基于統(tǒng)計(jì)的音譯模型 方法在一定程度上解決了符合音譯規(guī)律的音譯問題,對(duì)于部分符合音譯規(guī)律或者不符合音 譯規(guī)律的情況無能為力。基于短語的上下文相關(guān)的組織機(jī)構(gòu)名模型以傳統(tǒng)機(jī)器模型作為基 礎(chǔ)改進(jìn),未考慮組織機(jī)構(gòu)名的內(nèi)部結(jié)構(gòu)特點(diǎn),并且時(shí)間復(fù)雜度高,針對(duì)組織機(jī)構(gòu)名整體(音 譯和意譯)的翻譯模型還不夠成熟,研究比較少,有必要進(jìn)一步深入研究。
發(fā)明內(nèi)容
為解決上述技術(shù)問題,本發(fā)明提出了一種組織機(jī)構(gòu)名漢英翻譯方法,以達(dá)到更準(zhǔn)確的 翻譯組織機(jī)構(gòu)名的目的。
為達(dá)到上述目的,本發(fā)明的技術(shù)方案如下:
一種組織機(jī)構(gòu)名漢英翻譯方法,方法步驟如下:
步驟1:獲取組織機(jī)構(gòu)名實(shí)體相應(yīng)的擴(kuò)展查詢集合;
步驟2:采用包含擴(kuò)展集合的新的檢索詞檢索網(wǎng)絡(luò)資源,獲取混合雙語摘要資源;
步驟3:從混合雙語摘要資源抽取組織機(jī)構(gòu)名實(shí)體翻譯候選并按照可信度進(jìn)行排序;
步驟4:得到翻譯結(jié)果。
作為優(yōu)選的,步驟1所述的擴(kuò)展查詢集合包含有:組織機(jī)構(gòu)名實(shí)體翻譯結(jié)果構(gòu)造查詢 和共現(xiàn)主題詞譯文擴(kuò)展查詢,
所述組織機(jī)構(gòu)名實(shí)體翻譯結(jié)果構(gòu)造查詢的具體步驟如下:構(gòu)建組織機(jī)構(gòu)名翻譯對(duì);對(duì) 所述組織機(jī)構(gòu)名翻譯對(duì)進(jìn)行內(nèi)部對(duì)齊;根據(jù)計(jì)算的翻譯可信度進(jìn)行語句塊的抽取;生成基 于所述語句塊的組織機(jī)構(gòu)名翻譯模型;提取有效的信息結(jié)果,
所述共現(xiàn)主題詞譯文擴(kuò)展查詢方法步驟為:將源查詢?cè)~提交搜索引擎,獲取包含源查 詢的源語言摘要信息,然后利用TF-IDF從獲得的源語言摘要信息抽取和源查詢共現(xiàn)的主題 詞匯,獲得主題詞匯后,從雙語詞典中查找這些主題詞匯的譯文作為該方法最后的擴(kuò)展集 合。
作為優(yōu)選的,所述內(nèi)部對(duì)齊的步驟為:利用機(jī)器翻譯中普遍采用的GIZA++詞對(duì)齊工具 對(duì)機(jī)構(gòu)名的漢英翻譯對(duì)進(jìn)行了詞對(duì)位處理,包括漢-英和英-漢兩個(gè)方向,根據(jù)兩個(gè)方向的 對(duì)齊結(jié)果的交集獲取對(duì)齊錨點(diǎn);抽取候選字串;根據(jù)獲取每一個(gè)對(duì)齊錨點(diǎn)分別向左右方向 擴(kuò)展直至下一個(gè)對(duì)齊錨點(diǎn),當(dāng)前對(duì)齊錨點(diǎn)加上擴(kuò)展的字詞作為候選的字串;計(jì)算雙語單語 串的翻譯可信度;針對(duì)每一個(gè)命名實(shí)體翻譯對(duì),采用貪心算法獲取最優(yōu)對(duì)齊結(jié)果。
作為優(yōu)選的,所述翻譯可信度的計(jì)算方法是使用類似于TF-IDF方法對(duì)獲得的翻譯片段 打分,對(duì)于給定的中文串o和英文串e翻譯可信度按如下公式計(jì) 算:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于安徽廣播電視大學(xué),未經(jīng)安徽廣播電視大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710779839.3/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 基于互聯(lián)網(wǎng)的組織機(jī)構(gòu)信息整合與更新方法
- 一種組織機(jī)構(gòu)圖的實(shí)現(xiàn)方法及裝置
- 一種基于IPv4的新組織機(jī)構(gòu)層級(jí)管理算法
- 一種組織機(jī)構(gòu)視圖的實(shí)現(xiàn)方法及裝置
- 一種在線組織機(jī)構(gòu)社交的方法和系統(tǒng)
- 一種基于組織機(jī)構(gòu)對(duì)數(shù)據(jù)進(jìn)行顯示的方法及系統(tǒng)
- 用于提取組織機(jī)構(gòu)的簡稱的方法和裝置
- 一種獲取視聯(lián)網(wǎng)監(jiān)控設(shè)備的組織機(jī)構(gòu)的方法及裝置
- 一種監(jiān)控設(shè)備數(shù)量統(tǒng)計(jì)方法、系統(tǒng)、電子設(shè)備及存儲(chǔ)介質(zhì)
- 組織機(jī)構(gòu)相關(guān)人員關(guān)系的挖掘方法及裝置
- 自然語言查詢需求擴(kuò)展設(shè)備及其方法
- 實(shí)現(xiàn)擴(kuò)展搜索和提供擴(kuò)展搜索結(jié)果
- 實(shí)現(xiàn)擴(kuò)展搜索和提供擴(kuò)展搜索結(jié)果
- 查詢擴(kuò)展方法及查詢擴(kuò)展設(shè)備
- 一種用于確定查詢序列的查詢類別的設(shè)備及其方法
- 擴(kuò)展查詢方法及系統(tǒng)
- 一種搜索引擎查詢擴(kuò)展的方法及系統(tǒng)
- 用于擴(kuò)展查詢式的方法和裝置
- 查詢?cè)~嵌入擴(kuò)展詞和統(tǒng)計(jì)擴(kuò)展詞并集的中文查詢擴(kuò)展方法
- 一種查詢?cè)~自動(dòng)擴(kuò)展方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





