[發明專利]一種融入動態詞向量的關系抽取系統在審
| 申請號: | 202011387516.8 | 申請日: | 2019-01-25 |
| 公開(公告)號: | CN112487203A | 公開(公告)日: | 2021-03-12 |
| 發明(設計)人: | 張力文;程國艮 | 申請(專利權)人: | 中譯語通科技股份有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/33;G06N3/04;G06F40/30 |
| 代理公司: | 北京中譽威圣知識產權代理有限公司 11279 | 代理人: | 蔣常雪 |
| 地址: | 100131 北京市石景*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 融入 動態 向量 關系 抽取 系統 | ||
1.一種融入動態詞向量的關系抽取系統,該系統包括:
語料采集模塊,采用遠程監督的方式,從知識庫隨機抽取關系三元組,并以三元組中的實體對為關鍵字,利用爬蟲系統,從海量網絡文本中爬取含有該實體對的語句,作為訓練語料,并存入數據庫中;
動態詞向量生產模塊,其將語句字符轉化為向量,首先從上述數據庫中提取語句語料,送入深度雙向語言模型,輸出相應的動態詞向量,進一步計算得到句向量,并送入關系抽取模塊中進行訓練;
關系抽取模塊,該模塊使用的模型是引入注意力機制的分段神經網絡模型,通過大量的訓練語句訓練模型,然后將模型保存,用來預測新文本語句的實體關系類別;
其中,所述分段神經網絡模型的輸入為包含實體對的訓練語句;
且所述訓練語句被所述實體對分為三段,并將其映射為相應的三段詞向量;
使用卷積神經網絡,分別對所述三段詞向量進行特征提取,得到三段特征向量,分別計算所述三段特征向量的權重與關系向量;具體采用如下公式計算所述三段特征向量的權重和關系向量:
bi=Conv(vectorsentence_i),i=1,2,3 (1)
wi=waT(tanh[bi;vrelation])+ba (2)
vrelation=vent1-vent2 (4)
其中,bi表示句子sentence第i部分經卷積神經網絡提取的特征向量,vectorsentence_i表示句子sentence第i部分詞向量;wi表示第i部分特征向量融合關系向量后,新得到的特征向量,wa、ba為模型參數;αi為特征向量權重,vrelation為關系向量;vent1和vent2分別表示第一實體向量和第二實體向量;
根據得到的特征向量的權重,將三段特征向量與相應的權重相乘,并進行拼接即可得到最終的句向量表示,所述句向量通過一個全連接層后進行softmax分類,具體采用如下方式:
s=contact[b1·α1;b2·α2;b3·α3] (5)
c=softmax(w·s+b) (6)
其中,s表示每個w經過加權求和后,拼接起來的新向量;c表示類別的向量;w表示特征向量融合關系向量后,新得到的特征向量;b表示句子sentence經卷積神經網絡提取的特征向量。
2.根據權利要求1所述的系統,其特征在于,所述語料采集模塊還具有數據清洗功能,過濾無效的非文本數據,按語句文本長度將爬取的語句存入數據庫中。
3.根據權利要求2所述的系統,動態詞向量根據不同語句生成,設定一個語句長度閾值,大于該閾值則截取,小于該閾值則補齊;將對齊后的語句輸入動態詞向量生成模塊,輸出為句中每個詞的詞向量,進行拼接后,得到該語句的句向量。
4.根據權利要求3所述的系統,所述關系抽取模塊以所述動態詞向量生產模塊生產的句向量作為輸入,抽取語句中實體對的關系,輸出該語句所屬的類別。
5.根據權利要求4所述的系統,其特征在于,所述深度雙向語言模型為ELMO模型或BERT模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中譯語通科技股份有限公司,未經中譯語通科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011387516.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:雙釋放片及其制備方法
- 下一篇:一種無創呼吸機面罩





