[發明專利]文本相似度的確定方法及裝置有效
| 申請號: | 201811152289.3 | 申請日: | 2018-09-29 |
| 公開(公告)號: | CN110969023B | 公開(公告)日: | 2023-04-18 |
| 發明(設計)人: | 孫德彬;徐文斌 | 申請(專利權)人: | 北京國雙科技有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/289;G06N3/0464;G06N3/08 |
| 代理公司: | 北京康信知識產權代理有限責任公司 11240 | 代理人: | 趙囡囡;董文倩 |
| 地址: | 100083 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 相似 確定 方法 裝置 | ||
1.一種文本相似度的確定方法,其特征在于,包括:
獲取至少兩個文本的詞序列;
將所述至少兩個文本的詞序列轉換成多維數字向量;
通過預先訓練的匹配模型對所述多維數字向量進行語義組合,以確定文本向量,包括:獲取所述多維數字向量;依據所述多維數字向量,計算低維語義向量,其中,所述低維語義向量表示詞語所在的句子的語義信息;對所述低維語義向量進行組合,確定多個單維句子向量,其中,所述單維句子向量表示句子所在文本的文本信息;通過所述多個單維句子向量,計算所述至少兩個文本的文本向量,其中,依據所述多維數字向量,計算低維語義向量包括:將所述多維數字向量中的每維數字向量轉換為表示詞語所在句子的詞語向量;組合詞語向量中詞義的相似度在預設范圍內的詞語,以得到所述低維語義向量;
通過所述匹配模型對所述文本向量進行向量比對,并對所述至少兩個文本的文本語義進行解析,確定所述至少兩個文本的文本相似度,包括:依據所述文本向量,確定每個文本的文本中心語句;依據所述文本中心語句,確定每個所述文本的文章中心語義;根據所述至少兩個文本中每個文本的所述文章中心語義和所述匹配模型,計算所述至少兩個文本的文本相似度,其中,通過所述匹配模型對所述文本向量進行向量比對,并對所述至少兩個文本的文本語義進行解析,確定所述至少兩個文本的文本相似度還包括:依據所述每個文本的所述文章中心語義,對所述至少兩個文本進行交互計算,以確定多組二維矩陣;根據所述多組二維矩陣,建立與所述至少兩個文本的局部語句信息對應的高階矩陣,其中,所述高階矩陣中包括所述至少兩個文本的文本匹配特征;使用卷積網絡來提取所述至少兩個文本的文本匹配特征,得到多層次文本匹配特征;對所述多層次文本匹配特征進行池化分析,確定所述至少兩個文本的文本相似度。
2.根據權利要求1所述的方法,其特征在于,在通過多獲取至少兩個文本的詞序列之前,包括:
獲取預設訓練文本中的多組訓練數據;
通過所述多組訓練數據得到所述匹配模型。
3.根據權利要求2所述的方法,其特征在于,通過多組訓練數據得到所述匹配模型包括:
獲取對所述預設訓練文本進行標注的文本標注信息,其中,所述文本標注信息至少包括文本標簽;
對所述預設訓練文本進行分詞,并建立與每個詞語對應的數字向量;
依據所述每個詞語對應的數字向量,訓練得到所述匹配模型,其中,在訓練所述匹配模型時,通過多組訓練數據對所述匹配模型進行訓練,每組所述訓練數據至少包括:詞語分類結果、文本訓練結果、文本相似度,所述詞語分類結果為下述之一:相似詞和非相似詞,所述文本訓練結果為下述之一:相似文本對和非相似文本對。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京國雙科技有限公司,未經北京國雙科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811152289.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:獲取法律案件的審理期限的方法及裝置
- 下一篇:一種可擺動調節的顯示器





