[發明專利]基于模式嵌入的自動樹庫轉化方法及系統有效
| 申請號: | 201810366793.7 | 申請日: | 2018-04-23 |
| 公開(公告)號: | CN108647254B | 公開(公告)日: | 2021-06-22 |
| 發明(設計)人: | 李正華;章波;江心舟;張民;陳文亮 | 申請(專利權)人: | 蘇州大學 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F40/284 |
| 代理公司: | 蘇州市中南偉業知識產權代理事務所(普通合伙) 32257 | 代理人: | 楊慧林 |
| 地址: | 215104 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 模式 嵌入 自動 轉化 方法 系統 | ||
本發明涉及一種基于模式嵌入的自動樹庫轉化方法及系統,為了獲得精準的有監督轉化模型而設計。本發明基于模式嵌入的自動樹庫轉化方法,確定詞wi和詞wj的模式;將詞wi和詞wj的模式變換為對應的模式嵌入向量;將源端樹中詞wi、詞wj、最小公共祖先節點wa三者分別對應的依存關系標簽分別變換為依存關系嵌入向量;將模式嵌入向量和三個依存關系嵌入向量拼接起來,作為源端樹中詞wi和詞wj的結構信息的表示向量,循環神經網絡的頂層輸出分別與表示向量拼接起來,作為感知器MLP的輸入;利用雙仿射計算獲得詞wi和詞wj的目標端依存弧分值;本發明充分利用源端句法樹,刻畫兩種標注規范的對應規律,最終完成高質量樹庫轉化。
技術領域
本發明屬于自然語言處理技術領域,具體涉及一種基于模式嵌入的自動樹庫轉化方法及系統。
背景技術
目前研究人員在樹庫研究方面開展了大量的研究和開發工作,也取得了可觀的成果。這些樹庫采用的標注體系差別巨大,按照描述方法大體分為兩種,一種是短語結構樹,一種是依存樹。
對于依存樹而言,兩個樹庫的依存標注是遵循不同的標注規范的,稱這兩個樹庫是異構的。很多世界主流語言都擁有多個大規模異構樹庫,由于樹庫的構建需要非常高昂的人工代價,因此如何利用不同的異構樹庫推進句法分析的性能是一個非常重要的研究方向。
樹庫轉化工作的主要動機是通過標注小規模的雙樹對齊數據,有效的刻畫不同標注規范之間的對應規律,構建有監督轉化模型(樹庫轉化模型),最終目的是將大規模源端規范樹庫轉化為符合目標規范的樹庫,迅速擴大符合目標規范的訓練數據規模。如圖1所示,圖的上半部分是按照蘇州大學的規范所標注的結果,下半部分是按照哈工大漢語依存樹庫HIT-CDT規范所標注的結果。這樣一個句子有兩種標注規范的數據,稱之為雙樹對齊數據。
為了提高句法分析的性能,本領域研究人員提出了多個經典的方法,例如:基于指導特征的間接方法、基于多任務學習的間接方法、基于轉化的直接方法。間接方法的主要問題是對源端樹庫的利用不充分,無法有效刻畫規范之間對應規律;而基于轉化的直接方法,受限于雙樹對齊數據的缺失,也無法有效學習規范之間的對應規律,因此轉化效果一般。
發明內容
為解決上述技術問題,本發明的目的是提供一種充分利用源端樹庫的結構信息,進而得到更優目標端依存弧得分值的基于模式嵌入的自動樹庫轉化方法及系統。
為達到上述發明目的,本發明基于模式嵌入的自動樹庫轉化方法,包括:
獲取雙樹對齊數據庫,所述雙樹對齊數據庫內存儲有采用兩種標注規范進行標注的句子;
分別計算各所述句子中每兩個詞在目標端樹中的依存弧分值,其中,所述的兩個詞分別以詞wi和詞wj表示,預設詞wi和詞wj在目標端樹中分別為修飾詞和核心詞,詞wi和詞wj在目標端樹中的依存弧分值計算過程包括:
根據詞wi和詞wj在源端樹dsrc中的句法關系,確定詞wi和詞wj的模式;
基于模式與嵌入向量對應表,將詞wi和詞wj的模式變換為對應的模式嵌入向量
將源端樹中詞wi對應的依存關系標簽、詞wj的依存關系標簽、詞wi和詞wj的最小公共祖先節點wa的依存關系標簽分別變換為依存關系嵌入向量
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州大學,未經蘇州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810366793.7/2.html,轉載請聲明來源鉆瓜專利網。





