[發明專利]基于模式嵌入的自動樹庫轉化方法及系統有效
| 申請號: | 201810366793.7 | 申請日: | 2018-04-23 |
| 公開(公告)號: | CN108647254B | 公開(公告)日: | 2021-06-22 |
| 發明(設計)人: | 李正華;章波;江心舟;張民;陳文亮 | 申請(專利權)人: | 蘇州大學 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F40/284 |
| 代理公司: | 蘇州市中南偉業知識產權代理事務所(普通合伙) 32257 | 代理人: | 楊慧林 |
| 地址: | 215104 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 模式 嵌入 自動 轉化 方法 系統 | ||
1.一種基于模式嵌入的自動樹庫轉化方法,其特征在于,包括:
獲取雙樹對齊數據庫,所述雙樹對齊數據庫內存儲有采用兩種標注規范進行標注的句子;
分別計算各所述句子中每兩個詞在目標端樹中的依存弧分值,其中,所述的兩個詞分別以詞wi和詞wj表示,預設詞wi和詞wj在目標端樹中分別為修飾詞和核心詞,詞wi和詞wj在目標端樹中的依存弧分值計算過程包括:
根據詞wi和詞wj在源端樹dsrc中的句法關系,確定詞wi和詞wj的模式;
基于模式與嵌入向量對應表,將詞wi和詞wj的模式變換為對應的模式嵌入向量
將源端樹中詞wi的依存關系標簽、詞wj的依存關系標簽、詞wi和詞wj的最小公共祖先節點wa的依存關系標簽分別變換為依存關系嵌入向量
將模式嵌入向量和三個依存關系嵌入向量拼接起來,作為源端樹dsrc中詞wi和詞wj的結構信息的表示向量
基于循環神經網絡BiSeqLSTM,得到所述句子中各個詞各自對應的頂層輸出向量,詞wi和詞wj各自對應的頂層輸出向量
將詞wi和詞wj各自對應的頂層輸出向量分別與所述的表示向量拼接起來,作為感知器MLP的輸入;
感知器萃取出句法相關信息:
利用雙仿射計算詞wi和詞wj的目標端依存弧分值,具體計算公式為:
其中,Wb為雙仿射運算參數;
其中,將所述句子中各個詞的嵌入向量和該詞的詞性的嵌入向量進行拼接,得到該詞對應的拼接向量,以所述句子對應的全部拼接向量作為一個序列輸入至循環神經網絡BiSeqLSTM,運算處理后,循環神經網絡BiSeqLSTM的頂層輸出該句子的各個詞各自對應的頂層輸出向量,其中,詞wi和詞wj各自對應的頂層輸出向量表示為
2.根據權利要求1所述的基于模式嵌入的自動樹庫轉化方法,其特征在于,還包括:基于雙樹對齊數據庫中各句子的詞wi和詞wj在目標端樹的依存弧分值,進行數據訓練,得到有監督轉換模型,其中使用全局的CRFloss,對每一個句子定義損失函數。
3.根據權利要求1所述的基于模式嵌入的自動樹庫轉化方法,其特征在于,源端樹的詞和詞之間定義了9種模式,其中,其他情況根據詞和詞的路徑距離細分為4類,詞wk為所述句子中詞wi、詞wj以外的任一詞,表格表示如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州大學,未經蘇州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810366793.7/1.html,轉載請聲明來源鉆瓜專利網。





