[發(fā)明專利]一種基于神經(jīng)機器翻譯技術(shù)的超文本標記語言翻譯方法在審
| 申請?zhí)枺?/td> | 202011212042.3 | 申請日: | 2020-11-03 |
| 公開(公告)號: | CN112257462A | 公開(公告)日: | 2021-01-22 |
| 發(fā)明(設(shè)計)人: | 劉興宇;杜權(quán) | 申請(專利權(quán))人: | 沈陽雅譯網(wǎng)絡(luò)技術(shù)有限公司 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/211;G06F40/289;G06N3/08 |
| 代理公司: | 沈陽優(yōu)普達知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 21234 | 代理人: | 李曉光 |
| 地址: | 110004 遼寧省沈陽市*** | 國省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 神經(jīng) 機器翻譯 技術(shù) 超文本 標記 語言 翻譯 方法 | ||
本發(fā)明公開一種基于神經(jīng)機器翻譯技術(shù)的超文本標記語言翻譯方法,從含有外文數(shù)據(jù)的網(wǎng)絡(luò)中爬取海量數(shù)據(jù)作為超文本標記語言語料,從超文本標記語言語料中獲取雙語句對;對雙語句對進行清洗過濾、分詞、子詞切分預(yù)處理,得到訓(xùn)練數(shù)據(jù),并輸入到神經(jīng)網(wǎng)絡(luò)模型中訓(xùn)練至模型收斂;對用戶實時輸入的超文本標記語言進行處理,提取出超文本標記語言文本中需要翻譯的句子和需要保留的格式;對需要翻譯的句子進行預(yù)處理,將句子標簽狀態(tài)進行保存并翻譯;對輸入句子和翻譯結(jié)果進行詞對齊使標簽被正確添加到翻譯結(jié)果中,獲得與用戶輸入匹配的高精度譯文。本發(fā)明使超文本標記語言的標簽被正確的保留,獲得與用戶輸入匹配的高精度譯文,使翻譯效果十分優(yōu)越。
技術(shù)領(lǐng)域
本發(fā)明涉及一種超文本標記語言翻譯方法,具體為基于神經(jīng)機器翻譯技術(shù)的超文本標記語言翻譯方法。
背景技術(shù)
隨著科學(xué)技術(shù)的不斷進步,互聯(lián)網(wǎng)成為了現(xiàn)代人必不可少的基礎(chǔ)資源,在現(xiàn)在這個信息化時代中,互聯(lián)網(wǎng)就像電力資源一樣不可或缺,人們可以十分便捷地從中獲取知識,獲取信息。但是,在人們?yōu)g覽互聯(lián)網(wǎng)時,有一個重大的問題擺在面前——語言障礙。出于人們對翻譯的需求,機器翻譯技術(shù)得以快速發(fā)展,而超文本標記語言翻譯是機器翻譯的一個重要問題。
超文本標記語言(HTML)是在標準通用標記語言(SGML)基礎(chǔ)上建立的一種用于描述超文本的標記語言,SGML是ISO在1986年公布的文本描述標準。超文本指含有指向其他文檔的指針的文本,標記是描述或分割文本中各對象的編碼。HTML不是一種編程語言,而是一種標記語言。HTML通過標記符號來標記要顯示的網(wǎng)頁中的各個部分,它具有簡易性、可擴展性、平臺無關(guān)性、通用性。網(wǎng)頁的本質(zhì)就是超文本標記語言,網(wǎng)頁文件本身是一種文本文件,通過在文本文件中添加標記符,可以告訴瀏覽器如何顯示其中的內(nèi)容。標記語言是文本和與文本相關(guān)的其他信息的組合,顯示關(guān)于文檔結(jié)構(gòu)和數(shù)據(jù)處理細節(jié)的計算機文本編碼。與文本相關(guān)的其他信息(包括文本結(jié)構(gòu)和演示信息等)和原始文本組合,但標有標記。
目前,對超文本標記語言的翻譯需求已經(jīng)越來越多了,很多人在日常生活中難免會瀏覽一些國外網(wǎng)站,而又有很多人不懂外文,或外文水平不夠高,就會導(dǎo)致讀不懂外文網(wǎng)站上的新聞,看不懂國外的專業(yè)學(xué)習(xí)資料,而常用的翻譯工具卻無法處理冗雜的標簽,導(dǎo)致翻譯結(jié)果不如人意,尤其是一句話的內(nèi)部夾雜著標簽的時候,通常會把句子分割開翻譯成幾個錯誤的獨立句子。超文本標記語言翻譯問題的研究核心是如何把超文本標記語言的樣式保留到翻譯結(jié)果上。傳統(tǒng)的翻譯模型在新的應(yīng)用場景中顯得愈發(fā)無力,尤其是當(dāng)超文本標記語言結(jié)構(gòu)日趨異構(gòu)化之后,僅僅考慮翻譯已經(jīng)不足以解決實際需求。
在產(chǎn)業(yè)界,有很多機器翻譯系統(tǒng)已經(jīng)被研發(fā)和廣泛使用,譬如搜狗翻譯、谷歌翻譯、小牛翻譯、百度翻譯等等。但是它們在處理超文本標記語言時仍有很大的缺陷,傳統(tǒng)的在線翻譯系統(tǒng)由于訓(xùn)練數(shù)據(jù)的不同,在處理標記語言時會錯誤地翻譯出很多無需翻譯的東西和亂碼。而面對大規(guī)模的標記語言的翻譯任務(wù)時,往往得不到想要的結(jié)果,只有當(dāng)需要翻譯的內(nèi)容被準確地篩選出來送入翻譯系統(tǒng),才能最好的利用機器翻譯的性能,這浪費了大量的時間,而當(dāng)需要翻譯的內(nèi)容內(nèi)部具有標簽,就需要更多的時間進行處理,并且翻譯結(jié)果無法體現(xiàn)原來內(nèi)容的標簽。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)中神經(jīng)機器翻譯技術(shù)無法完整有效地應(yīng)用于超文本標記語言等不足,本發(fā)明要解決的技術(shù)問題是提供一種基于神經(jīng)機器翻譯技術(shù)的超文本標記語言翻譯方法,利用海量的真實語料,使用先進的神經(jīng)機器翻譯技術(shù),配合信息抽取技術(shù)和詞對齊技術(shù),達到用戶對超文本標記語言翻譯結(jié)果的高質(zhì)量要求。
本發(fā)明基于神經(jīng)機器翻譯技術(shù)的超文本標記語言翻譯方法,包括以下步驟:
1)通過網(wǎng)絡(luò)爬蟲技術(shù)從含有外文數(shù)據(jù)的網(wǎng)絡(luò)中爬取海量數(shù)據(jù)作為超文本標記語言語料,利用信息抽取技術(shù)從超文本標記語言語料中獲取雙語句對;
2)對句對進行清洗過濾、分詞、子詞切分預(yù)處理,得到訓(xùn)練數(shù)據(jù);
3)將訓(xùn)練數(shù)據(jù)輸入到神經(jīng)網(wǎng)絡(luò)模型中開始訓(xùn)練模型至模型收斂;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于沈陽雅譯網(wǎng)絡(luò)技術(shù)有限公司,未經(jīng)沈陽雅譯網(wǎng)絡(luò)技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011212042.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 用于治療支氣管樹的系統(tǒng)、組件和方法
- 一種頸部神經(jīng)信號記錄方法
- 用于在激活褐色脂肪組織時抑制神經(jīng)的方法和裝置
- 一種神經(jīng)元硬件裝置及用這種裝置模擬脈沖神經(jīng)網(wǎng)絡(luò)的方法
- 神經(jīng)移植物及應(yīng)用其的神經(jīng)移植物系統(tǒng)
- 一種神經(jīng)疏通緩解裝置
- 神經(jīng)移植物及應(yīng)用其的神經(jīng)移植物系統(tǒng)
- 一種模擬神經(jīng)網(wǎng)芯片的設(shè)計方法及模擬神經(jīng)網(wǎng)芯片
- 神經(jīng)網(wǎng)絡(luò)的剪枝方法、裝置、設(shè)備及存儲介質(zhì)
- 一套無人機神經(jīng)網(wǎng)絡(luò)控制用的人工神經(jīng)元模型





