[發明專利]基于Bert模型的文本相似度計算方法和裝置在審
| 申請號: | 202010151330.6 | 申請日: | 2020-03-06 | 
| 公開(公告)號: | CN111368037A | 公開(公告)日: | 2020-07-03 | 
| 發明(設計)人: | 周宸;駱加維;周寶;陳遠旭 | 申請(專利權)人: | 平安科技(深圳)有限公司 | 
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F40/284;G06F40/211;G06N3/04 | 
| 代理公司: | 北京匯思誠業知識產權代理有限公司 11444 | 代理人: | 馮曉平 | 
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 | 
| 權利要求書: | 查看更多 | 說明書: | 查看更多 | 
| 摘要: | |||
| 搜索關鍵詞: | 基于 bert 模型 文本 相似 計算方法 裝置 | ||
1.一種基于Bert模型的文本相似度計算方法,其特征在于,包括:
確定待比對文本句段;
采用詞頻詞現率算法,基于所述待比對文本句段得到第一文本矩陣;
通過預先訓練的Bert模型,基于所述待比對文本句段得到第二文本矩陣;
將所述第一文本矩陣和所述第二文本矩陣進行拼接,得到拼接文本矩陣;
對所述拼接文本矩陣進行特征優化,得到目標文本矩陣;
采用預設的相似度算法,根據所述目標文本矩陣得到所述待比對文本句段間的文本相似度。
2.根據權利要求1所述的方法,其特征在于,所述采用詞頻詞現率算法,基于所述待比對文本句段得到第一文本矩陣,包括:
根據所述待比對文本句段建立詞袋,其中,所述詞袋包括所述待比對文本句段中出現的字詞;
根據所述詞袋計算每個所述字詞在所述待比對文本句段中的詞頻,采用公式表示為其中,t表示字詞,d表示句段,tft,d表示字詞t是否在句段d中出現,若出現則取1,若沒有出現則gt,d取0,gt,d表示一個字詞在一所述待比對文本句段中的占比;
根據所述詞袋計算逆向文件頻率,采用公式表示為其中,N表示文件總個數,所述文件是預先確定的,dft表示有n個文件含有字詞t,所述n為大于或等于0的整數;
根據所述詞頻和所述逆向文件頻率得到所述第一文本矩陣,所述第一文本矩陣中的元素采用公式計算得到。
3.根據權利要求1所述的方法,其特征在于,所述在通過預先訓練的Bert模型,基于所述待比對文本句段得到第二文本矩陣之前,還包括Bert模型的訓練過程,包括如下步驟:
獲取原始語料;
將所述原始語料進行字符級的分割;
根據所述原始語料構建句子對,其中,所述句子對包括正樣本句子對和負樣本句子對,所述正樣本句子對存在句子間的上下文關系,所述負樣本句子對不存在句子間的上下文關系;
基于字符級分割后的所述原始語料連接所述句子對;
隨機遮掩所述句子對中百分之十的字符,得到訓練語料;
將所述訓練語料輸入到初始Bert模型中進行訓練,得到所述Bert模型。
4.根據權利要求1所述的方法,其特征在于,所述將所述第一文本矩陣和所述第二文本矩陣進行拼接,得到拼接文本矩陣,包括:
判斷所述第一文本矩陣和所述第二文本矩陣的矩陣尺寸是否相同;
若相同,將所述第一文本矩陣和所述第二文本矩陣進行拼接,得到所述拼接文本矩陣;
若不相同,采用主成分分析法對所述第一文本矩陣進行降維,使所述第一文本矩陣的矩陣尺寸等于所述第二文本矩陣的矩陣尺寸,并在降維后拼接所述第一文件矩陣和所述第二文本矩陣,得到所述拼接文本矩陣。
5.根據權利要求1至4任意一項所述的方法,其特征在于,所述對所述拼接文本矩陣進行特征優化,得到目標文本矩陣,包括:
基于主成分分析的方法,計算所述拼接文本矩陣的詞向量vS,采用公式表示為其中,S為所述拼接文本矩陣,vt為字詞t在所述拼接文本矩陣中的向量,α為預設的平滑參數,pt為字詞在文件中出現的概率;
采用截斷奇異值分解方法得到所述詞向量vS的主成分u;
根據所述詞向量vS和所述主成分u對所述詞向量vS進行特征優化,得到更新后的所述詞向量,采用公式表示為v′S=vS-u(uT)vS,其中,T表示轉置矩陣運算:
根據更新后的所述詞向量v′S得到所述目標文本矩陣。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010151330.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種油溫加熱輥
- 下一篇:一種標注結果處理方法、裝置、設備及存儲介質





