[發明專利]文本語義相似度的分析方法、裝置及計算機設備在審
| 申請號: | 202010092595.3 | 申請日: | 2020-02-14 |
| 公開(公告)號: | CN111368024A | 公開(公告)日: | 2020-07-03 |
| 發明(設計)人: | 李小娟;徐國強 | 申請(專利權)人: | 深圳壹賬通智能科技有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06N3/04 |
| 代理公司: | 北京中強智尚知識產權代理有限公司 11448 | 代理人: | 黃耀威 |
| 地址: | 518000 廣東省深圳市前海深港合作區前*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 語義 相似 分析 方法 裝置 計算機 設備 | ||
本申請公開了一種文本語義相似度的分析方法、裝置及計算機設備,涉及計算機技術領域,可以解決在對目標領域的短文本進行相似度分析時,存在短文本相似度數據的獲取以及標注困難,且短文本相似度算法效果容易受數據標注質量的影響,導致計算結果不穩定的問題。其中方法包括:獲取通用數據集以及目標領域數據集;將所述通用數據集作為訓練樣本訓練語義相似度識別模型;利用所述目標領域數據集作為遷移學習樣本調整所述語義相似度識別模型;將待進行語義相似度識別的目標短文本輸入至調整完成的所述語義相似度識別模型中,獲取得到語義相似度;基于所述語義相似度確定語義相似度識別結果。本申請適用于對目標領域的文本語義相似度的分析。
技術領域
本申請涉及計算機技術領域,尤其涉及到一種文本語義相似度的分析方法、裝置及計算機設備。
背景技術
語義相似度計算也可以稱作文本匹配。文本匹配是很多自然語言處理應用中常見的問題,短文本相似度是指文本長度在一定范圍的相似度計算,相比長文本,短文本包含的信息更少,在相似度計算上具有更大的挑戰性。
目前的短文本相似度計算方法主要采用深度學習的方法,基于深度的短文本相似度計算首先需要人工標注大量的數據,進而利用標注數據進行相似度計算。
然而現有的基于特定領域的短文本相似度計算,如果該領域的公開數據較少,存在短文本相似度數據的獲取以及標注困難的問題,且短文本相似度算法效果容易受數據標注質量的影響,導致計算結果不穩定。
發明內容
有鑒于此,本申請提供了一種文本語義相似度的分析方法、裝置及計算機設備,主要解決在對目標領域的短文本進行相似度分析時,存在短文本相似度數據的獲取以及標注困難,且短文本相似度算法效果容易受數據標注質量的影響,導致分析結果不穩定的問題。
根據本申請的一個方面,提供了一種文本語義相似度的分析方法,該方法包括:
獲取通用數據集以及目標領域數據集;
將所述通用數據集作為訓練樣本訓練語義相似度識別模型;
利用所述目標領域數據集作為遷移學習樣本調整所述語義相似度識別模型;
將待進行語義相似度識別的目標短文本輸入至調整完成的所述語義相似度識別模型中,獲取得到語義相似度;
基于所述語義相似度確定語義相似度識別結果。
根據本申請的另一個方面,提供了一種文本語義相似度的分析裝置,該裝置包括:
獲取模塊,用于獲取通用數據集以及目標領域數據集;
訓練模塊,用于將所述通用數據集作為訓練樣本訓練語義相似度識別模型;
調整模塊,用于利用所述目標領域數據集作為遷移學習樣本調整所述語義相似度識別模型;
輸入模塊,用于將待進行語義相似度識別的目標短文本輸入至調整完成的所述語義相似度識別模型中,獲取得到語義相似度;
確定模塊,用于基于所述語義相似度確定語義相似度識別結果。
根據本申請的另一個方面,提供了一種非易失性可讀存儲介質,其上存儲有計算機程序,所述程序被處理器執行時實現上述文本語義相似度的分析方法。
根據本申請的再一個方面,提供了一種計算機設備,包括非易失性可讀存儲介質、處理器及存儲在非易失性可讀存儲介質上并可在處理器上運行的計算機程序,所述處理器執行所述程序時實現上述文本語義相似度的分析方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳壹賬通智能科技有限公司,未經深圳壹賬通智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010092595.3/2.html,轉載請聲明來源鉆瓜專利網。





