[發(fā)明專利]基于深度神經(jīng)網(wǎng)絡的句子對齊方法在審
| 申請?zhí)枺?/td> | 201810835723.1 | 申請日: | 2018-07-26 |
| 公開(公告)號: | CN109062910A | 公開(公告)日: | 2018-12-21 |
| 發(fā)明(設計)人: | 丁穎;李軍輝;周國棟 | 申請(專利權(quán))人: | 蘇州大學 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28;G06F17/27;G06N3/04 |
| 代理公司: | 蘇州市中南偉業(yè)知識產(chǎn)權(quán)代理事務所(普通合伙) 32257 | 代理人: | 馮瑞;楊慧林 |
| 地址: | 215131 *** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 神經(jīng)網(wǎng)絡 單詞 捕獲 句子 上下文信息 句子對齊 雙向循環(huán) 隱藏狀態(tài) 語義關(guān)系 非線性關(guān)系 雙線性模型 相似度矩陣 翻譯 詞典信息 關(guān)聯(lián)網(wǎng)絡 線性關(guān)系 語義信息 對齊 門機制 池化 單層 信息量 融合 網(wǎng)絡 | ||
一種基于深度神經(jīng)網(wǎng)絡的句子對齊方法,采用雙向循環(huán)神經(jīng)網(wǎng)絡層,對句子進行編碼,不僅考慮了單詞本身的語義信息,還考慮了該單詞的上下文信息,使每個單詞獲得包含其上下文信息的隱藏狀態(tài);門關(guān)聯(lián)網(wǎng)絡層,計算兩個句子中詞對間的語義關(guān)系信息;以雙向循環(huán)神經(jīng)網(wǎng)絡獲得的每個單詞的隱藏狀態(tài)作為輸入,使用通過門機制融合的雙線性模型和單層神經(jīng)網(wǎng)絡的網(wǎng)絡,來從線性關(guān)系和非線性關(guān)系兩個角度捕獲詞對間相似性,然后使用最大池化操作來捕獲其最具信息量的部分;對于互為翻譯的兩個句子中存在絕大多數(shù)互為翻譯的單詞,傳統(tǒng)方法也是利用詞對信息進行對齊判斷,本發(fā)明不需要利用額外的詞典信息,來捕獲詞對間的語義關(guān)系特征。并能獲得詞對相似度矩陣。
技術(shù)領(lǐng)域
本發(fā)明涉及一種基于神經(jīng)網(wǎng)絡的句子對齊方法。
背景技術(shù)
平行語料庫是多自然語言處理任務極其重要的資源,自然語言處理中的許多任務,如機器翻譯、跨語言信息檢索和雙語詞典等都需要平行語料的支持。句子對齊任務是從兩篇不同語言的文檔中提取出互為翻譯的平行句對,用來擴充平行語料庫,從而解決一些平行語料規(guī)模較小問題。
句子對齊的早期研究方法主要是基于特征匹配的方法,該方法只關(guān)注了雙語句子之間的表面信息,即根據(jù)兩個句子之間的長度關(guān)系判斷句子是否對齊。接著根據(jù)平行句子中的詞對關(guān)系,許多研究者提出基于詞典的方法,即根據(jù)兩個句子中互為翻譯的詞對個數(shù)與整個句子的單詞數(shù)的關(guān)系來判斷句子是否對齊。此外,也有一些方法將兩個句子的長度信息和詞對信息結(jié)合起來,或者添加其它特征信息、啟發(fā)式策略、翻譯成同一種語言并比較翻譯后的句子與另一個句子是否相似等來判斷句子是否對齊。近年來,隨著深度學習的深入研究,神經(jīng)網(wǎng)絡方法也在句子對齊任務中取得了顯著的效果。
句子對齊是自然語言處理中的基礎(chǔ)性任務。目前,句子對齊任務被看作是一個分類任務,即對齊或不對齊兩類,最后通過對齊優(yōu)化策略來抽取最終的平行句對。
早期的句子對齊方法采用的是統(tǒng)計的方法,根據(jù)句子的長度特征、互為翻譯對的單詞數(shù)特征,通過統(tǒng)計的方法得到這些特征值,并根據(jù)這些特征值和制定的對齊策略來判斷句子是否對齊。同時,還有一些方法是根據(jù)標點符號、位置關(guān)系等特征來提高句子對齊的性能。另外,也有一些句子對齊工作是先采用已有的句子工具抽取出語料中被工具認為是平行的句對,然后在通過一些規(guī)則特征進行進一步判斷,找到最優(yōu)對齊。它們大部分采用的是無監(jiān)督和半監(jiān)督的方法來進行訓練。
如圖1所示,近年來,隨著深度學習的不斷發(fā)展,深度神經(jīng)網(wǎng)絡也在句子對齊任務中成功應用,一般來說需要參考語料來進行有監(jiān)督訓練,即通過一系列已知類別的句對(平行句對和非平行句對兩個類別)來訓練調(diào)整分類器的參數(shù),使其達到最優(yōu)性能的過程。已有的神經(jīng)網(wǎng)絡方法主要有根據(jù)雙向循環(huán)神經(jīng)網(wǎng)絡來編碼兩個句子,得到每個單詞的隱藏狀態(tài),將最后一個單詞和第一個單詞的隱藏狀態(tài)拼接起來作為整個句子的隱藏狀態(tài),然后將這兩個隱藏狀態(tài)的乘積和差的絕對值相加,再通過雙曲正切函數(shù)tanh來計算它們之間的相似度,并通過全鏈接層獲得更抽象的表示,最后通過S型生長曲線--sigmoid函數(shù)計算其分類概率。這種方法僅僅將句子表示成一個向量,并不能很好地捕獲句子內(nèi)部的單詞信息,而單詞信息是判斷句子是否對齊的關(guān)鍵因素,因此僅僅通過比較兩個句子向量來判斷句子對齊很容易丟失重要的匹配信息。
如圖2所示,同時,也有方法是來比較詞對間的相似度,然后通過卷積神經(jīng)網(wǎng)絡捕獲其最有用的信息進行分類。根據(jù)兩個句子中每個詞對的詞嵌入通過余弦相似度和歐氏距離計算它們的相似度,從而得到一個m*n的相似度矩陣,其中m和n分別為源端句子長度和目標端句子長度;然后,在得到的相似度矩陣上應用卷積神經(jīng)網(wǎng)絡來捕獲其最有用的信息;最后通過S型生長曲線--sigmoid函數(shù)輸出其分類概率。這種方法通過計算詞對間的相似度來捕獲句對間的匹配信息,能夠較好地提高句子對齊性能。
然而,句子對齊不僅要求對齊的句對存在大量互為翻譯的單詞對,同時也要求對齊的句對間的語義一致性。僅通過詞嵌入計算詞對相似度可能會丟失句子的上下文信息,僅通過雙向循環(huán)神經(jīng)網(wǎng)絡編碼得到的句子向量判斷句子對齊很容易丟失單詞的匹配信息。
發(fā)明內(nèi)容
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于蘇州大學,未經(jīng)蘇州大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810835723.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種可插拔組件
- 下一篇:一種人工智能語音建模方法
- 硬件神經(jīng)網(wǎng)絡轉(zhuǎn)換方法、計算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡
- 神經(jīng)網(wǎng)絡的生成方法、生成裝置和電子設備
- 一種舌診方法、裝置、計算設備及計算機存儲介質(zhì)
- 學習神經(jīng)網(wǎng)絡結(jié)構(gòu)
- 脈沖神經(jīng)網(wǎng)絡轉(zhuǎn)換方法及相關(guān)轉(zhuǎn)換芯片
- 圖像處理方法、裝置、可讀存儲介質(zhì)和計算機設備
- 一種適應目標數(shù)據(jù)集的網(wǎng)絡模型微調(diào)方法、系統(tǒng)、終端和存儲介質(zhì)
- 用于重構(gòu)人工神經(jīng)網(wǎng)絡的處理器及其操作方法、電氣設備
- 一種圖像神經(jīng)網(wǎng)絡結(jié)構(gòu)的優(yōu)化方法及裝置





