[發明專利]一種文本語義匹配的方法及裝置有效
| 申請號: | 201810031623.3 | 申請日: | 2018-01-12 |
| 公開(公告)號: | CN108132931B | 公開(公告)日: | 2021-06-25 |
| 發明(設計)人: | 蔣宏飛;趙紅紅;晉耀紅;楊凱程 | 申請(專利權)人: | 鼎富智能科技有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京弘權知識產權代理有限公司 11363 | 代理人: | 逯長明;許偉群 |
| 地址: | 230000 安徽省合肥市*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 語義 匹配 方法 裝置 | ||
1.一種文本語義匹配的方法,其特征在于,包括:
獲取基礎文本中的基礎詞和基礎字符,所述基礎文本包括至少一個基礎詞,每個基礎詞包括至少一個基礎字符;
根據所述基礎詞和基礎字符獲取基礎輸入向量;
對所述基礎輸入向量進行卷積處理,獲得至少一個基礎局部信息向量;
根據所述基礎局部信息向量獲取基礎局部信息平均向量;
對所述基礎局部信息平均向量進行不具有注意力機制的雙向LSTM處理,得到基礎池化向量;
獲取目標文本中的目標詞和目標字符,所述目標文本包括至少一個目標詞,每個目標詞包括至少一個目標字符;
根據所述目標詞和目標字符獲取目標輸入向量;
對所述目標輸入向量進行卷積處理,獲得至少一個目標局部信息向量;
根據所述目標局部信息向量獲取目標局部信息平均向量;
使用所述基礎池化向量對所述目標局部信息平均向量進行具有注意力機制的雙向LSTM處理,獲得目標池化向量;
計算所述基礎池化向量和所述目標池化向量的相似度;
如果所述相似度大于或者等于預設值,則確定所述目標文本的語義與所述基礎文本的語義匹配,其中,
所述對所述基礎局部信息平均向量進行不具有注意力機制的雙向LSTM處理,得到基礎池化向量包括:
按照所述基礎局部信息平均向量的正向順序,根據不具有注意力機制的LSTM模型依次獲取每個所述基礎局部信息平均向量的基礎正向隱向量;
按照所述基礎局部信息平均向量的反向順序,根據不具有注意力機制的LSTM模型依次獲取每個所述基礎局部信息平均向量的基礎反向隱向量;
拼接每個所述基礎局部信息平均向量的所述基礎正向隱向量和所述基礎反向隱向量,得到每個所述基礎局部信息平均向量的基礎拼接隱向量;
對所有所述基礎拼接隱向量進行Max-pooling處理,得到所述基礎池化向量;
所述使用所述基礎池化向量對所述目標局部信息平均向量進行具有注意力機制的雙向LSTM處理,獲得目標池化向量包括:
按照所述目標局部信息平均向量的正向順序,根據具有注意力機制的LSTM模型獲取每個所述目標局部信息平均向量的目標正向隱向量;
按照所述目標局部信息平均向量的反向順序,使用所述基礎池化向量根據具有注意力機制的LSTM模型獲取每個所述目標局部信息平均向量的目標反向隱向量;
拼接每個所述目標局部信息平均向量的所述目標正向隱向量和所述目標反向隱向量,得到每個目標局部信息平均向量的目標拼接隱向量;
根據所述基礎池化向量對每個所述目標局部信息平均向量的目標拼接隱向量進行注意力機制操作,得到每個目標局部信息平均向量的權重;
使用所述目標局部信息平均向量的權重與對應的所述目標拼接隱向量得到具有注意力機制的目標拼接隱向量;
對所述具有注意力機制的目標拼接隱向量進行Max-pooling處理,獲得所述目標池化向量;
進一步地,所述按照所述目標局部信息向量的正向順序,根據具有注意力機制的LSTM模型獲取每個所述目標局部信息平均向量對應的目標正向隱向量包括:
根據首個目標局部信息平均向量的預設隱向量和所述基礎池化向量生成首個目標局部信息平均向量的目標正向隱向量;
生成第(i-1)個目標局部信息平均向量的目標正向隱向量后,根據第(i-1)個目標正向隱向量和所述基礎池化向量生成第i個目標正向隱向量,所述i=2,3,……n,其中n為所述目標局部信息平均向量的個數。
2.根據權利要求1所述的方法,其特征在于,所述根據所述基礎詞和基礎字符獲取基礎輸入向量包括:
獲取所有所述基礎詞對應的基礎詞向量和所有所述基礎字符對應的基礎字向量;
拼接所有所述基礎詞向量和所有所述基礎字向量,得到基礎輸入向量。
3.根據權利要求1或2所述的方法,其特征在于,所述根據所述基礎局部信息向量獲取基礎局部信息平均向量包括:
拼接所有所述基礎局部信息向量,生成基礎局部信息總向量;
均分所述基礎局部信息總向量,得到基礎局部信息平均向量。
4.一種文本語義匹配裝置,其特征在于,所述裝置包括:
文本獲取模塊,用于獲取基礎文本中的基礎詞和基礎字符,所述基礎文本包括至少一個基礎詞,每個基礎詞包括至少一個基礎字符;
輸入向量獲取模塊,用于根據所述基礎詞和基礎字符獲取基礎輸入向量;
卷積處理模塊,用于對所述基礎輸入向量進行卷積處理,獲得至少一個基礎局部信息向量;
局部信息平均向量獲取模塊,用于根據所述基礎局部信息向量獲取基礎局部信息平均向量;
基礎池化向量獲取模塊,用于對所述基礎局部信息平均向量進行不具有注意力機制的雙向LSTM處理,得到基礎池化向量;
文本獲取模塊,還用于獲取目標文本中的目標詞和目標字符,所述目標文本包括至少一個目標詞,每個目標詞包括至少一個目標字符;
輸入向量獲取模塊,還用于根據所述目標詞和目標字符獲取目標輸入向量;
卷積處理模塊,還用于對所述目標輸入向量進行卷積處理,獲得至少一個目標局部信息向量;
局部信息平均向量獲取模塊,還用于根據所述目標局部信息向量獲取目標局部信息平均向量;
目標池化向量獲取模塊,用于使用所述基礎池化向量對所述目標局部信息平均向量進行具有注意力機制的雙向LSTM處理,獲得目標池化向量;
相似度獲取模塊,用于計算所述基礎池化向量和所述目標池化向量的相似度;
語義匹配模塊,用于如果所述相似度大于或者等于預設值,則確定所述目標文本的語義與所述基礎文本的語義匹配,其中,
所述基礎池化向量獲取模塊包括:
基礎正向隱向量獲取子模塊,用于按照所述基礎局部信息平均向量的正向順序,根據不具有注意力機制的LSTM模型依次獲取每個基礎局部信息平均向量的基礎正向隱向量;
基礎反向隱向量獲取子模塊,用于按照所述基礎局部信息平均向量的反向順序,根據不具有注意力機制的LSTM模型依次獲取每個基礎局部信息平均向量的基礎反向隱向量;
基礎拼接隱向量獲取子模塊,用于拼接每個所述基礎局部信息平均向量的所述基礎正向隱向量和所述基礎反向隱向量,得到每個基礎局部信息平均向量的基礎拼接隱向量;
基礎池化向量獲取子模塊,用于對所有所述基礎拼接隱向量進行Max-pooling處理,得到所述基礎池化向量;
所述目標池化向量獲取模塊包括:
目標正向隱向量獲取子模塊,用于按照所述目標局部信息平均向量的正向順序,根據具有注意力機制的LSTM模型獲取每個所述目標局部信息平均向量的目標正向隱向量;
目標反向隱向量獲取子模塊,用于按照所述目標局部信息平均向量的反向順序,使用所述基礎池化向量根據具有注意力機制的LSTM模型獲取每個所述目標局部信息平均向量的目標反向隱向量;
向量拼接子模塊,用于拼接每個所述目標局部信息平均向量的所述目標正向隱向量和所述目標反向隱向量,得到每個目標局部信息平均向量的目標拼接隱向量;
權重獲取子模塊,用于根據基礎池化向量對每個目標局部信息平均向量的目標拼接隱向量進行注意力機制操作,得到每個目標局部信息平均向量的權重;
目標拼接隱向量獲取子模塊,用于使用所述目標局部信息平均向量的權重與對應的目標拼接隱向量得到具有注意力機制的目標拼接隱向量;
目標池化向量獲取子模塊,用于對所述具有注意力機制的目標拼接隱向量進行Max-pooling處理,獲得所述目標池化向量;
進一步地,所述目標正向隱向量獲取子模塊包括:
首個目標正向隱向量獲取單元,用于根據首個目標局部信息平均向量的預設隱向量和所述基礎池化向量生成首個目標局部信息平均向量的目標正向隱向量;
第i個目標正向隱向量獲取單元,用于生成第(i-1)個目標局部信息平均向量的目標正向隱向量后,根據第(i-1)個目標正向隱向量和所述基礎池化向量生成第i個目標正向隱向量,所述i=2,3,……n,其中n為所述目標局部信息平均向量的個數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鼎富智能科技有限公司,未經鼎富智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810031623.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:特征詞提取方法及裝置
- 下一篇:帶有復制機制的神經機器翻譯方法





