[發明專利]基于模式嵌入的自動樹庫轉化方法及系統有效

申請號：	201810366793.7	申請日：	2018-04-23
公開（公告）號：	CN108647254B	公開（公告）日：	2021-06-22
發明（設計）人：	李正華;章波;江心舟;張民;陳文亮	申請（專利權）人：	蘇州大學
主分類號：	G06F16/31	分類號：	G06F16/31;G06F40/284
代理公司：	蘇州市中南偉業知識產權代理事務所(普通合伙) 32257	代理人：	楊慧林
地址：	215104 江蘇***	國省代碼：	江蘇;32
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于模式嵌入自動轉化方法系統
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明涉及一種基于模式嵌入的自動樹庫轉化方法及系統，為了獲得精準的有監督轉化模型而設計。本發明基于模式嵌入的自動樹庫轉化方法，確定詞w_i和詞w_j的模式；將詞w_i和詞w_j的模式變換為對應的模式嵌入向量；將源端樹中詞w_i、詞w_j、最小公共祖先節點w_a三者分別對應的依存關系標簽分別變換為依存關系嵌入向量；將模式嵌入向量和三個依存關系嵌入向量拼接起來，作為源端樹中詞w_i和詞w_j的結構信息的表示向量，循環神經網絡的頂層輸出分別與表示向量拼接起來，作為感知器MLP的輸入；利用雙仿射計算獲得詞w_i和詞w_j的目標端依存弧分值；本發明充分利用源端句法樹，刻畫兩種標注規范的對應規律，最終完成高質量樹庫轉化。

技術領域

本發明屬于自然語言處理技術領域，具體涉及一種基于模式嵌入的自動樹庫轉化方法及系統。

背景技術

目前研究人員在樹庫研究方面開展了大量的研究和開發工作，也取得了可觀的成果。這些樹庫采用的標注體系差別巨大，按照描述方法大體分為兩種，一種是短語結構樹，一種是依存樹。

對于依存樹而言，兩個樹庫的依存標注是遵循不同的標注規范的，稱這兩個樹庫是異構的。很多世界主流語言都擁有多個大規模異構樹庫，由于樹庫的構建需要非常高昂的人工代價，因此如何利用不同的異構樹庫推進句法分析的性能是一個非常重要的研究方向。

樹庫轉化工作的主要動機是通過標注小規模的雙樹對齊數據，有效的刻畫不同標注規范之間的對應規律，構建有監督轉化模型(樹庫轉化模型)，最終目的是將大規模源端規范樹庫轉化為符合目標規范的樹庫，迅速擴大符合目標規范的訓練數據規模。如圖1所示，圖的上半部分是按照蘇州大學的規范所標注的結果，下半部分是按照哈工大漢語依存樹庫HIT-CDT規范所標注的結果。這樣一個句子有兩種標注規范的數據，稱之為雙樹對齊數據。

為了提高句法分析的性能，本領域研究人員提出了多個經典的方法，例如：基于指導特征的間接方法、基于多任務學習的間接方法、基于轉化的直接方法。間接方法的主要問題是對源端樹庫的利用不充分，無法有效刻畫規范之間對應規律；而基于轉化的直接方法，受限于雙樹對齊數據的缺失，也無法有效學習規范之間的對應規律，因此轉化效果一般。

發明內容

為解決上述技術問題，本發明的目的是提供一種充分利用源端樹庫的結構信息，進而得到更優目標端依存弧得分值的基于模式嵌入的自動樹庫轉化方法及系統。

為達到上述發明目的，本發明基于模式嵌入的自動樹庫轉化方法，包括：

獲取雙樹對齊數據庫，所述雙樹對齊數據庫內存儲有采用兩種標注規范進行標注的句子；

分別計算各所述句子中每兩個詞在目標端樹中的依存弧分值，其中，所述的兩個詞分別以詞w_i和詞w_j表示，預設詞w_i和詞w_j在目標端樹中分別為修飾詞和核心詞，詞w_i和詞w_j在目標端樹中的依存弧分值計算過程包括：

根據詞w_i和詞w_j在源端樹d^src中的句法關系，確定詞w_i和詞w_j的模式；

基于模式與嵌入向量對應表，將詞w_i和詞w_j的模式變換為對應的模式嵌入向量

將源端樹中詞w_i對應的依存關系標簽、詞w_j的依存關系標簽、詞w_i和詞w_j的最小公共祖先節點w_a的依存關系標簽分別變換為依存關系嵌入向量

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于蘇州大學，未經蘇州大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201810366793.7/2.html，轉載請聲明來源鉆瓜專利網。