[發明專利]一種基于卷積神經網絡的文物知識關系抽取方法在審
| 申請號: | 202110410046.0 | 申請日: | 2021-04-16 |
| 公開(公告)號: | CN113076744A | 公開(公告)日: | 2021-07-06 |
| 發明(設計)人: | 田侃;唐昌倫;趙卓;張殊;張晨;先興平;游小琳;廖嘉欣 | 申請(專利權)人: | 重慶中國三峽博物館;重慶郵電大學 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F16/35;G06F40/216;G06N3/04 |
| 代理公司: | 重慶輝騰律師事務所 50215 | 代理人: | 王海軍 |
| 地址: | 400015 *** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 卷積 神經網絡 文物 知識 關系 抽取 方法 | ||
1.一種基于卷積神經網絡的文物知識關系抽取方法,其特征在于,包括以下步驟:
S1、獲取文物數據集,并對文物數據進行預處理,得到預處理后的文物數據;
S2、通過Word2vec的Skip-gram模型對預處理后的文物數據進行詞向量的轉化,提取句子中每個單詞的詞匯級別特征;
S3、提取文物數據中每條句子的句子級別特征;
S4、將所提取的詞匯級別特征和句子級別特征進行拼接,得到拼接后的特征向量,將拼接后的特征向量作為分類任務的特征數據,接入全連接層;在全連接層將特征數據經線性變換,再通過Softmax分類器計算分類預測值,得到該句子對應關系的置信度得分,置信度得分反映句子的關系。
2.根據權利要求1所述的一種基于卷積神經網絡的文物知識關系抽取方法,其特征在于,步驟S3中,提取文物數據中每條句子的句子級別特征包括:
S31、針對文物數據中的每條句子提取詞特征和位置特征,對詞特征和位置特征進行組合拼接,得到拼接后的特征向量;
S32、將拼接后的特征向量送入卷積神經網絡中提取句子級別特征,得到卷積神經網絡輸出的特征向量;
S33、利用最大池化對卷積運算的輸出特征向量進行降采樣,得到更精準的句子級別特征。
3.根據權利要求2所述的一種基于卷積神經網絡的文物知識關系抽取方法,其特征在于,卷積神經網絡的結構包括輸入層、池化層和卷積層,所述池化層用于采用MaxPooling,選取卷積結果計算后的最強特征;所述卷積層用于提取特征。
4.根據權利要求2所述的一種基于卷積神經網絡的文物知識關系抽取方法,其特征在于,卷積神經網絡的的處理流程包括以下過程:
S321、將詞特征和位置特征組合拼接后得到的特征向量輸入到卷積神經網絡中,輸入為一個k×n的詞向量矩陣,其中k為詞向量的維度,n為一條句子所包含詞語的個數;
S322、對輸入矩陣進行窗口截取,窗口大小為l,截取后的窗口表示為:
qi=wi:i+l-1∈Rl×d (1≤i≤m-l+1)
其中,qi表示窗口大小為l的句子表示,w表示文本嵌入表示,R表示文本的維度為l×d;
S323、卷積層對窗口中的每一個詞組進行處理,輸出每個詞對應的上下文特征向量;第k個卷積核Wk對第i個窗口作用的結果計算如下:
pk,i=f(Wkqi+b)∈R
其中,f(·)為正切函數,Wk表示卷積核,qi表示窗口大小,b偏置項;
卷積神經網絡最終輸出為:
pk=[pk,1…pk,m-l+1]T∈Rm-l+1
其中,pk是第k個卷積核的輸出的結果,pk,1表示第一個窗口輸出的卷積結果,R表示輸出結果的維度,m表示句子長度,l表示窗口大小。
5.根據權利要求4所述的一種基于卷積神經網絡的文物知識關系抽取方法,其特征在于,利用最大池化對卷積神經網絡的輸出結果進行降采樣,去除句子中包含的冗余噪聲信息,篩選出對于卷積層中最有用的局部特征信息,表達式如下:
pk,max=max(pk)
最大池化操作,并將輸出結果拼接起來,經非線性變換,選擇雙曲正切作為激活函數,計算方法如下,從而得到更精準的句子級別特征:
x=tanh(W·pk,max)
其中,x表示更精準的句子級別特征,且W為待學習的權重矩陣,tanh為激活函數,pk,max為池化后的特征向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶中國三峽博物館;重慶郵電大學,未經重慶中國三峽博物館;重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110410046.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種索網結構光伏電站施工方法
- 下一篇:信息提醒方法和裝置





