[發明專利]一種基于深度學習的實例對齊方法有效
| 申請號: | 201811589849.1 | 申請日: | 2018-12-25 |
| 公開(公告)號: | CN109697288B | 公開(公告)日: | 2020-09-15 |
| 發明(設計)人: | 張春霞;郭鈺;羅妹秋;劉東磊;牛振東 | 申請(專利權)人: | 北京理工大學 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/289;G06F40/30 |
| 代理公司: | 北京正陽理工知識產權代理事務所(普通合伙) 11639 | 代理人: | 毛燕 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 實例 對齊 方法 | ||
1.一種基于深度學習的實例對齊方法,所依托的一種基于深度學習的實例對齊判別系統,其特征在于:包括語料采集模塊、實例對構建模塊、實例對預處理模塊、特征向量生成模塊、深度學習模型訓練模塊以及實例對齊判別模塊;語料采集模塊與實例對構建模塊相連;實例對構建模塊與實例對預處理模塊相連;實例對預處理模塊與特征向量生成模塊相連;特征向量生成模塊與深度學習模型訓練模塊相連;深度學習模型訓練模塊與實例對齊判別模塊相連,所述實例對齊方法,其特征在于:包括如下步驟:
步驟1:由語料采集模塊構建實例語料集;
步驟2:由實例對構建模塊構建實例對集合;
步驟2,具體為:從百科網站Ei和Ej采集實例詞條文件,構建實例對(ei,ej),所有的實例對組成了實例對集合;
其中,ei是來自百科網站Ei的實例詞條,ej是來自百科網站Ej的實例詞條,i,j為整數;
步驟3:由實例對預處理模塊對實例對集合進行預處理;
其中,實例對集合預處理包括數據清洗和中文分詞;數據清洗是指過濾掉實例詞條中的符號和停用詞;符號是指除了中文漢字、字母和阿拉伯數字以外的符號,包括中文標點符號、英文標點符號、括號、引號、星號*和井號#;停用詞是指沒有表示實際意義的詞語;
中文分詞是指采用分詞工具對實例詞條進行分詞;
步驟4:由特征向量生成模塊生成訓練集實例對的特征向量,具體為:
基于段落向量模型Doc2vec和詞向量模型Word2vec生成訓練集實例對的特征向量;
其中,特征向量由實例對的段落向量和實例對的高頻詞向量構成;
步驟5:基于訓練集實例對,由深度學習模型訓練模塊訓練雙向長短期記憶-卷積神經網絡模型;
其中,雙向長短期記憶-卷積神經網絡模型的輸入是特征向量;雙向長短期記憶-卷積神經網絡模型包括隱藏層、卷積層、池化層、全連接層;通過隱藏層捕捉序列特征,通過卷積層的卷積操作提取局部特征,通過池化層的最大池化操作來保留顯著特征,通過全連接層輸出實例對齊結果;
步驟6:實例對齊判別模塊利用經過訓練的雙向長短期記憶-卷積神經網絡模型對測試集實例對進行實例對齊判別,輸出實例對齊結果。
2.根據權利要求1所述的一種基于深度學習的實例對齊方法,其特征在于:步驟1,具體為:從多個百科網站采集實例詞條文件,構建實例語料集,并將實例語料集保存到計算機。
3.根據權利要求1所述的一種基于深度學習的實例對齊方法,其特征在于:步驟3中,停用詞主要包括連詞“但是”、介詞“在”以及感嘆詞“啊”;
步驟3中對實例對(ei,ej),經預處理后,將該實例對表示為:(wi1,wi2,…,wip,wj1,wj2,….,wjq),其中wi1,wi2,…,wip為實例詞條ei中的詞語,wj1,wj2,….,wjq為實例詞條ej中的詞語,p,q為整數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學,未經北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811589849.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:句子級雙語對齊方法及系統
- 下一篇:一種改進的用于命名實體識別的主動學習方法





