[發明專利]基于樹形循環神經網絡的自動樹庫轉化方法及系統有效
| 申請號: | 201810366795.6 | 申請日: | 2018-04-23 | 
| 公開(公告)號: | CN108628829B | 公開(公告)日: | 2022-03-15 | 
| 發明(設計)人: | 李正華;江心舟;章波;張民;陳文亮 | 申請(專利權)人: | 蘇州大學 | 
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/289;G06N3/04;G06N3/08 | 
| 代理公司: | 蘇州市中南偉業知識產權代理事務所(普通合伙) 32257 | 代理人: | 楊慧林 | 
| 地址: | 215104 江蘇*** | 國省代碼: | 江蘇;32 | 
| 權利要求書: | 查看更多 | 說明書: | 查看更多 | 
| 摘要: | |||
| 搜索關鍵詞: | 基于 樹形 循環 神經網絡 自動 轉化 方法 系統 | ||
本發明涉及一種基于樹形循環神經網絡的自動樹庫轉化方法及系統,為了獲得精準的有監督轉化模型而設計。本發明基于樹形循環神經網絡的自動樹庫轉化方法,包括:基于雙向樹形循環神經網絡TreeLSTM,得到詞wi、詞wi、詞wa的隱藏層輸出向量將隱藏層輸出向量拼接起來,作為詞wi和詞wj在源端樹中的表示向量循環神經網絡BiSeqLSTM頂層輸出的輸出向量分別與表示向量拼接起來,作為感知器MLP的輸入,感知器萃取出句法相關信息;利用雙仿射計算詞wi和詞wj的目標端依存弧分值。本發明充分利用源端句法樹,刻畫兩種標注規范的對應規律為建立高質量樹有監督轉化模型提供了必要的數據支持。
技術領域
本發明屬于自然語言處理技術領域,具體涉及一種基于樹形循環神經網絡的自動樹庫轉化方法及系統。
背景技術
目前研究人員在樹庫研究方面開展了大量的研究和開發工作,也取得了可觀的成果。這些樹庫采用的標注體系差別巨大,按照描述方法大體分為兩種,一種是短語結構樹,一種是依存樹。
對于依存樹而言,兩個樹庫的依存標注是遵循不同的標注規范的,稱這兩個樹庫是異構的。很多世界主流語言都擁有多個大規模異構樹庫,由于樹庫的構建需要非常高昂的人工代價,因此如何利用不同的異構樹庫推進句法分析的性能是一個非常重要的研究方向。
樹庫轉化工作的主要動機是通過標注小規模的雙樹對齊數據,有效的刻畫不同標注規范之間的對應規律,構建有監督轉化模型(樹庫轉化模型),最終目的是將大規模源端規范樹庫轉化為符合目標規范的樹庫,迅速擴大符合目標規范的訓練數據規模。如圖1所示,圖的上半部分是按照蘇州大學的規范所標注的結果,下半部分是按照哈工大漢語依存樹庫HIT-CDT規范所標注的結果。這樣一個句子有兩種標注規范的數據,稱之為雙樹對齊數據。
為了提高句法分析的性能,本領域研究人員提出了多個經典的方法,例如:基于指導特征的間接方法、基于多任務學習的間接方法、基于轉化的直接方法。間接方法的主要問題是對源端樹庫的利用不充分,無法有效刻畫規范之間對應規律;而基于轉化的直接方法,受限于雙樹對齊數據的缺失,也無法有效學習規范之間的對應規律,因此轉化效果一般。
發明內容
為解決上述技術問題,本發明的目的是提供一種充分利用源端樹庫的結構信息,進而得到更優目標端依存弧得分值的基于樹形循環神經網絡的自動樹庫轉化方法及系統。
為達到上述發明目的,本發明基于樹形循環神經網絡的自動樹庫轉化方法,包括:
獲取雙樹對齊數據庫,所述雙樹對齊數據庫內存儲有采用兩種標注規范進行標注的句子;
分別計算各所述句子中每兩個詞在目標端樹中的依存弧分值,其中,所述的兩個詞分別以詞wi和詞wj表示,預設詞wi和詞wj在目標端樹中分別為修飾詞和核心詞,詞wi和詞wj在目標端樹中的依存弧分值計算過程包括:
在源端樹中提取詞wi、詞wj的最短路徑樹,基于雙向樹形循環神經網絡TreeLSTM,得到該最短路徑樹中詞wi、詞wj、詞wa各自對應的隱藏層輸出向量其中,在源端樹dsrc中,詞ωa為詞ωi和詞ωj的最近公共祖先節點;
將詞wi、詞wj、詞wa的隱藏層輸出向量拼接起來,作為詞wi和詞wj在源端樹中的表示向量即
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州大學,未經蘇州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810366795.6/2.html,轉載請聲明來源鉆瓜專利網。





