[發明專利]一種基于自注意力的觀點及其持有者的聯合抽取方法有效
| 申請號: | 201810347840.3 | 申請日: | 2018-04-18 |
| 公開(公告)號: | CN108628828B | 公開(公告)日: | 2022-04-01 |
| 發明(設計)人: | 李雄;劉春陽;張傳新;張旭;王萌;閆昊;唐彬 | 申請(專利權)人: | 國家計算機網絡與信息安全管理中心;北京航空航天大學 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/289;G06F16/35 |
| 代理公司: | 北京慧泉知識產權代理有限公司 11232 | 代理人: | 王順榮;唐愛華 |
| 地址: | 100029*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 注意力 觀點 及其 持有者 聯合 抽取 方法 | ||
1.一種基于自注意力的觀點及其持有者的聯合抽取方法,其特征在于:該方法具體包括如下步驟:
S1.構建提取觀點及其持有者的語料集
語料集包含兩部分,一部分是不包含觀點的負樣本,另一部分是包含觀點及其持有者的正樣本,正樣本中包含觀點及其持有者的標注,一個正樣本可以表示為原文,觀點持有者及觀點>二元組,其中觀點持有者及觀點部分的格式為[觀點持有者]:[觀點];
S2.識別包含觀點的語句
識別包含觀點的語句是一個文本二分類問題,正類為包含觀點的語句,不包含觀點的語句作為負類;
S3.聯合抽取觀點及其持有者
采用雙向LSTM捕捉文本正序和逆序的信息,利用self-attention建立每個詞語與上下文詞語間的關系,并通過Pointer Network從文中提取出若干詞語構成觀點持有人,觀點二元組;
所述步驟S3具體實現步驟是:
S31:獲得詞向量,以中文維基百科為語料,利用word2vec模型訓練d維的詞向量;
S32:把向量化的句子w1,w2,...,wn作為雙向LSTM輸入,得到融合了前后文信息的詞語向量h1,h2,…,hn;
S33:將步驟S32得到的融合語義信息的詞語向量,對每個詞計算該詞wi與與其他詞語wj之間的權重αij,得到加權的向量a′i,將a′i和hi拼接成ai作為self-attention層的輸出,相關公式如下:
eij=We*tanh(Wshj+Waa′i-1)
ai=[a′i;hi]
其中a′i表示詞語wi經過self-attention機制加權求和后的結果,αij表示詞語wi與與其他詞語wj之間的權重;其中αij通過softmax函數計算,在eij計算中,We,Ws,Wa均是需要學習的參數,最后一個公式表示向量的拼接操作;
S34:將步驟S33得到的輸出a1,a2,...,an做為Pointer Network的encoder的輸入,encoder的輸出記為h1,h2,...,hn,decoder輸出概率最大的輸入子序列,該序列就是聯合抽取到的觀點及其持有者;根據構建的訓練語料,輸出的序列的第一個單詞為觀點持有者,其余為觀點;
S35:模型訓練,訓練數據和測試數據可以是將原始數據隨機排序,按80%做訓練,20%做測試的方法分開。
2.根據權利要求1所述的一種基于自注意力的觀點及其持有者的聯合抽取方法,其特征在于:所述步驟S2具體采用了基于CNN的文本分類模型,步驟如下:
S21:獲得詞向量,以中文維基百科為語料,利用word2vec模型訓練d維的詞向量;
S22:對句子s進行分詞處理,利用詞向量將s表示為一個矩陣C=w1,w2,...,wn,其中w1是句子s中第一個詞對應的d維詞向量;
S23:用k個卷積核對矩陣C進行處理,每個卷積核的大小為x*d,x是一個大于0小于5的整數,每個卷積操作得到一個n維向量;
S24:對步驟S23得到的k個n維進行最大池化,每個n維向量輸出最大的數值,最終得到一個k維向量;
S25:將步驟S24得到的k維向量作為用于分類的全連接網絡的輸入;
S26:模型訓練,訓練數據和測試數據可以是將原始數據隨機排序,按80%做訓練,20%做測試的方法分開。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國家計算機網絡與信息安全管理中心;北京航空航天大學,未經國家計算機網絡與信息安全管理中心;北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810347840.3/1.html,轉載請聲明來源鉆瓜專利網。





