[發明專利]一種基于深度學習的實例對齊方法有效
| 申請號: | 201811589849.1 | 申請日: | 2018-12-25 |
| 公開(公告)號: | CN109697288B | 公開(公告)日: | 2020-09-15 |
| 發明(設計)人: | 張春霞;郭鈺;羅妹秋;劉東磊;牛振東 | 申請(專利權)人: | 北京理工大學 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/289;G06F40/30 |
| 代理公司: | 北京正陽理工知識產權代理事務所(普通合伙) 11639 | 代理人: | 毛燕 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 實例 對齊 方法 | ||
本發明公開了一種基于深度學習的實例對齊方法,屬于信息融合及Web挖掘技術領域。本發明包括如下步驟:構建實例語料集;構建實例對集合;對實例對集合進行預處理;基于段落向量模型Doc2vec和詞向量模型Word2vec生成實例對的特征向量;基于訓練集實例對訓練雙向長短期記憶?卷積神經網絡模型;利用經過訓練的雙向長短期記憶?卷積神經網絡模型對測試集實例對進行實例對齊判別,輸出實例對齊結果。本發明將實例對齊問題轉換為分類問題,通過雙向長短期記憶?卷積神經網絡模型判別實例對齊,提高了實例對齊的識別性能,在信息檢索、問答系統、意見挖掘等領域具有廣闊的應用前景。
技術領域
本發明涉及一種基于深度學習的實例對齊方法,屬于信息融合和Web挖掘技術領域。
背景技術
本體對齊也稱本體映射。本體對齊是指識別不同本體的概念、實例、屬性的等價關系。實例對齊是本體對齊的重要研究內容,它是指判斷不同數據源或本體中的實體是否指稱現實世界中的相同事物。
本體對齊技術包括基于語言學的本體對齊方法、基于結構的本體對齊方法、基于推理的對齊方法,以及基于機器學習的本體對齊方法。
基于語言學的本體對齊方法是指根據自然語言處理技術、知識詞典來計算本體元素的相似性。基于語言學的本體對齊方法可分為基于字符串的本體對齊方法、基于自然語言處理技術的本體對齊方法、基于知識的本體對齊方法。
基于結構的本體對齊技術是指根據本體結構信息構建本體元素的對應關系。基于推理的本體對齊方法是指使用可滿足性求解器來解決本體對齊問題。基于機器學習的本體對齊方法是指利用監督式機器學習或非監督式機器學習方法來判斷本體元素的對齊關系。
詞向量模型Word2vec是一種構建詞向量的神經網絡模型。詞向量模型Word2vec是基于詞語的上下文來生成每個詞語的向量表示。文檔向量模型Doc2vec是基于詞向量模型改進的神經網絡模型。文檔向量模型Doc2vec能夠將一段句子或文檔表示為向量。
卷積神經網絡是一種前饋神經網絡,它主要由輸入層、卷積層、池化層、全連接層組成。卷積層用于特征提取,池化層用于降低數據維度,全連接層用于分類。長短期記憶模型是一種用于解決長期依賴問題的神經網絡模型。長短期記憶模型是由若干神經網絡模塊構成的鏈式結構。在神經網絡模塊中,長短期記憶模型通過輸入門、遺忘門和輸出門來實現信息的遺忘和記憶功能。
現有的本體對齊方法包括基于語言學的方法、基于結構的方法、基于推理的方法,以及基于機器學習的方法。實例對齊是本體對齊領域的重要研究問題。目前采用深度學習技術進行實例對齊的研究工作較少。
發明內容
本發明的目的在于針對現有基于深度學習的實例對齊方法存在對齊性能較低的技術缺陷,提出了一種基于深度學習的實例對齊方法。
所述實例對齊是指對于不同數據源的實例詞條,判別哪些實例詞條描述同一客觀事物。
所述深度學習的實例對齊方法,包括如下內容:其一,基于段落向量模型Doc2vec和詞向量模型Word2vec來構建文本表示向量,通過段落向量模型Doc2vec模型生成段落層面的文本特征,通過詞向量模型Word2vec模型生成文本高頻詞特征;其二,通過雙向長短期記憶-卷積神經網絡模型進行不同實例詞條的對齊;雙向長短期記憶模型(BidirectionalLong-term Short-term Memory Model,簡稱BiLSTM)能夠保留過去和未來的上下文的時序特征;卷積神經網絡模型(Convolutional Neural Network,簡稱CNN)能夠選擇特征和具有良好的數據泛化能力,雙向長短期記憶模型和卷積神經網絡模型的融合能夠增強語義捕獲能力。
本發明的目的是通過以下技術方案實現的。
一種基于深度學習的實例對齊方法,包括如下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學,未經北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811589849.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:句子級雙語對齊方法及系統
- 下一篇:一種改進的用于命名實體識別的主動學習方法





