[發明專利]語句相似度匹配方法及裝置有效
| 申請號: | 202010347946.0 | 申請日: | 2020-04-28 |
| 公開(公告)號: | CN111581347B | 公開(公告)日: | 2023-07-21 |
| 發明(設計)人: | 曹廣溥;吳江林;王慎超;李金澤 | 申請(專利權)人: | 中國工商銀行股份有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/332;G06F16/36 |
| 代理公司: | 北京三友知識產權代理有限公司 11127 | 代理人: | 王濤;任默聞 |
| 地址: | 100140 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語句 相似 匹配 方法 裝置 | ||
1.一種語句相似度匹配方法,其特征在于,包括:
獲取經分詞處理后的目標對象語句對應的目標句向量,其中,該目標句向量包括:一級詞匯的句向量、二級詞匯的句向量和三級詞匯的句向量;
基于預設的歷史數據集的倒排矩陣,獲取所述目標句向量中的一級詞匯的句向量在所述歷史數據集中對應的一級相似語句;
應用所述歷史數據集對應的相似詞字典,確定所述目標句向量中的二級詞匯的句向量、三級詞匯的句向量和所述一級相似語句之間的相似度得分,并得到所述一級相似語句對應的二級相似語句;
對所述二級相似語句的相似度得分進行歸一化處理,得到所述目標對象語句與所述歷史數據集之間的相似度匹配分值。
2.根據權利要求1所述的語句相似度匹配方法,其特征在于,在所述獲取經分詞處理后的目標對象語句對應的目標句向量之前,還包括:
應用獲取的歷史數據集生成對應的相似詞袋,并將其中的相似詞語存儲至預設的相似詞字典;
基于所述相似詞袋生成對應的詞頻排序詞袋以及與所述歷史數據集對應的分詞數據集的句向量矩陣;
獲取所述句向量矩陣對應的排序句向量矩陣以及所述倒排矩陣。
3.根據權利要求2所述的語句相似度匹配方法,其特征在于,所述應用獲取的歷史數據集生成對應的相似詞袋,并將其中的相似詞語存儲至預設的相似詞字典,包括:
獲取歷史數據集;
對所述歷史數據集進行分詞處理,生成所述歷史數據集對應的分詞數據集;
生成所述分詞數據集對應的詞袋,其中,所述詞袋用于存儲按照預設詞匯重要度規則劃分的一級詞匯、二級詞匯和三級詞匯;
基于預設的相似度模型對所述詞袋進行相似度計算,得到對應的相似詞袋,并將其中的相似詞語存儲至預設的相似詞字典。
4.根據權利要求3所述的語句相似度匹配方法,其特征在于,所述詞袋包括:一級詞匯列表、二級詞匯列表和三級詞匯列表;
所述一級詞匯列表用于存儲各個所述一級詞匯與各自對應的位置標簽;
所述二級詞匯列表用于存儲各個所述一級詞匯與各自對應的位置標簽;
所述三級詞匯列表用于存儲各個所述一級詞匯與各自對應的位置標簽。
5.根據權利要求2所述的語句相似度匹配方法,其特征在于,所述基于所述相似詞袋生成對應的詞頻排序詞袋以及所述分詞數據集的句向量矩陣,包括:
根據所述相似詞袋中各個詞匯出現的詞頻,對所述相似詞袋進行排序處理,得到所述相似詞袋對應的詞頻排序詞袋,其中,所述詞頻排序詞袋包括:按照詞頻正序排序后的一級詞匯的詞頻排序詞袋、二級詞匯的詞頻排序詞袋和三級詞匯的詞頻排序詞袋;
應用所述詞頻排序詞袋獲取所述分詞數據集的句向量矩陣,其中,所述句向量矩陣包括:一級詞匯的句向量矩陣、二級詞匯的句向量矩陣和三級詞匯的句向量矩陣。
6.根據權利要求2所述的語句相似度匹配方法,其特征在于,所述獲取所述句向量矩陣對應的排序句向量矩陣以及所述倒排矩陣,包括:
基于所述句向量矩陣中的各句子中詞匯的數量,確定各句子的句長;
根據各句子的句長對所述句向量矩陣進行排序處理,得到對應的排序句向量矩陣,其中,所述排序句向量矩陣包括:一級詞匯的排序句向量矩陣、二級詞匯的排序句向量矩陣和三級詞匯的排序句向量矩陣;
應用所述一級詞匯的排序句向量矩陣生成對應的倒排矩陣。
7.根據權利要求2所述的語句相似度匹配方法,其特征在于,所述獲取經分詞處理后的目標對象語句對應的目標句向量,包括:
接收目標對象語句;
對所述目標對象語句進行分詞處理,得到對應的目標分詞語句;
基于預設的所述詞頻排序詞袋,生成所述目標分詞語句對應的目標句向量。
8.根據權利要求1所述的語句相似度匹配方法,其特征在于,還包括:
將所述目標對象語句與所述歷史數據集之間的相似度匹配分值發送至所述目標對象語句的發送方進行顯示。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國工商銀行股份有限公司,未經中國工商銀行股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010347946.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種新型混合驅動三軸快速刀具伺服裝置
- 下一篇:一種線材前處理自動機及方法





