[發明專利]文本語義相似度的分析方法、裝置及計算機設備在審

申請號：	202010092595.3	申請日：	2020-02-14
公開（公告）號：	CN111368024A	公開（公告）日：	2020-07-03
發明（設計）人：	李小娟;徐國強	申請（專利權）人：	深圳壹賬通智能科技有限公司
主分類號：	G06F16/33	分類號：	G06F16/33;G06N3/04
代理公司：	北京中強智尚知識產權代理有限公司 11448	代理人：	黃耀威
地址：	518000 廣東省深圳市前海深港合作區前***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	文本語義相似分析方法裝置計算機設備
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本申請公開了一種文本語義相似度的分析方法、裝置及計算機設備，涉及計算機技術領域，可以解決在對目標領域的短文本進行相似度分析時，存在短文本相似度數據的獲取以及標注困難，且短文本相似度算法效果容易受數據標注質量的影響，導致計算結果不穩定的問題。其中方法包括：獲取通用數據集以及目標領域數據集；將所述通用數據集作為訓練樣本訓練語義相似度識別模型；利用所述目標領域數據集作為遷移學習樣本調整所述語義相似度識別模型；將待進行語義相似度識別的目標短文本輸入至調整完成的所述語義相似度識別模型中，獲取得到語義相似度；基于所述語義相似度確定語義相似度識別結果。本申請適用于對目標領域的文本語義相似度的分析。

技術領域

本申請涉及計算機技術領域，尤其涉及到一種文本語義相似度的分析方法、裝置及計算機設備。

背景技術

語義相似度計算也可以稱作文本匹配。文本匹配是很多自然語言處理應用中常見的問題，短文本相似度是指文本長度在一定范圍的相似度計算，相比長文本，短文本包含的信息更少，在相似度計算上具有更大的挑戰性。

目前的短文本相似度計算方法主要采用深度學習的方法，基于深度的短文本相似度計算首先需要人工標注大量的數據，進而利用標注數據進行相似度計算。

然而現有的基于特定領域的短文本相似度計算，如果該領域的公開數據較少，存在短文本相似度數據的獲取以及標注困難的問題，且短文本相似度算法效果容易受數據標注質量的影響，導致計算結果不穩定。

發明內容

有鑒于此，本申請提供了一種文本語義相似度的分析方法、裝置及計算機設備，主要解決在對目標領域的短文本進行相似度分析時，存在短文本相似度數據的獲取以及標注困難，且短文本相似度算法效果容易受數據標注質量的影響，導致分析結果不穩定的問題。

根據本申請的一個方面，提供了一種文本語義相似度的分析方法，該方法包括：

獲取通用數據集以及目標領域數據集；

將所述通用數據集作為訓練樣本訓練語義相似度識別模型；

利用所述目標領域數據集作為遷移學習樣本調整所述語義相似度識別模型；