日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]基于Bert模型的文本相似度計算方法和裝置在審

專利信息
申請號: 202010151330.6 申請日: 2020-03-06
公開(公告)號: CN111368037A 公開(公告)日: 2020-07-03
發明(設計)人: 周宸;駱加維;周寶;陳遠旭 申請(專利權)人: 平安科技(深圳)有限公司
主分類號: G06F16/33 分類號: G06F16/33;G06F40/284;G06F40/211;G06N3/04
代理公司: 北京匯思誠業知識產權代理有限公司 11444 代理人: 馮曉平
地址: 518000 廣東省深圳市福田區福*** 國省代碼: 廣東;44
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 基于 bert 模型 文本 相似 計算方法 裝置
【說明書】:

發明公開了一種基于Bert模型的文本相似度計算方法、裝置、計算機設備及存儲介質,涉及人工智能技術領域。該基于Bert模型的文本相似度計算方法包括:確定待比對文本句段;采用詞頻詞現率算法,基于待比對文本句段得到第一文本矩陣;通過預先訓練的Bert模型,基于待比對文本句段得到第二文本矩陣;將第一文本矩陣和第二文本矩陣進行拼接,得到拼接文本矩陣;對拼接文本矩陣進行特征優化,得到目標文本矩陣;采用預設的相似度算法,根據目標文本矩陣得到待比對文本句段間的文本相似度。采用該基于Bert模型的文本相似度計算方法能夠提高文本相似度計算的準確度。

【技術領域】

本發明涉及人工智能技術領域,尤其涉及一種基于Bert模型的文本相似度計算方法和裝置。

【背景技術】

文本相似度計算是自然語言處理領域的分支之一。目前文本相似度預測、計算上仍存在語義識別能力較弱、字詞與文本相關性不強等問題。文本相似度計算的準確度不能達到用戶的期望。

【發明內容】

有鑒于此,本發明實施例提供了一種基于Bert模型的文本相似度計算方法、裝置、計算機設備及存儲介質,用以解決目前文本相似度計算的準確度較低的問題。

第一方面,本發明實施例提供了一種基于Bert模型的文本相似度計算方法,包括:

確定待比對文本句段;

采用詞頻詞現率算法,基于所述待比對文本句段得到第一文本矩陣;

通過預先訓練的Bert模型,基于所述待比對文本句段得到第二文本矩陣;

將所述第一文本矩陣和所述第二文本矩陣進行拼接,得到拼接文本矩陣;

對所述拼接文本矩陣進行特征優化,得到目標文本矩陣;

采用預設的相似度算法,根據所述目標文本矩陣得到所述待比對文本句段間的文本相似度。

如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述采用詞頻詞現率算法,基于所述待比對文本句段得到第一文本矩陣,包括:

根據所述待比對文本句段建立詞袋,其中,所述詞袋包括所述待比對文本句段中出現的字詞;

根據所述詞袋計算每個所述字詞在所述待比對文本句段中的詞頻,采用公式表示為其中,t表示字詞,d表示句段,tft,d表示字詞t是否在句段d中出現,若出現則取1,若沒有出現則gt,d取0,gt,d表示一個字詞在一所述待比對文本句段中的占比;

根據所述詞袋計算逆向文件頻率,采用公式表示為其中,N表示文件總個數,所述文件是預先確定的,dft表示有n個文件含有字詞t,所述n為大于或等于0的整數;

根據所述詞頻和所述逆向文件頻率得到所述第一文本矩陣,所述第一文本矩陣中的元素采用公式計算得到。

如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述在通過預先訓練的Bert模型,基于所述待比對文本句段得到第二文本矩陣之前,還包括Bert模型的訓練過程,包括如下步驟:

獲取原始語料;

將所述原始語料進行字符級的分割;

根據所述原始語料構建句子對,其中,所述句子對包括正樣本句子對和負樣本句子對,所述正樣本句子對存在句子間的上下文關系,所述負樣本句子對不存在句子間的上下文關系;

基于字符級分割后的所述原始語料連接所述句子對;

隨機遮掩所述句子對中百分之十的字符,得到訓練語料;

將所述訓練語料輸入到初始Bert模型中進行訓練,得到所述Bert模型。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/202010151330.6/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 久99精品| 国产性生交xxxxx免费| 亚洲欧美一卡| 亚洲精品性| 国产精品白浆视频| 91麻豆精品国产91久久久更新资源速度超快 | 国产乱xxxxx国语对白| 国产69精品久久久久app下载 | 久久一区二区三区欧美| 国产1区2区3区| 久久er精品视频| 欧美精品一区二区久久久| 激情久久一区| 久久99国产视频| 丰满岳妇伦4在线观看| 狠狠色狠狠色很很综合很久久| 天啦噜国产精品亚洲精品| 精品国产1区2区| 国产91九色视频| 国产偷亚洲偷欧美偷精品| 97精品久久人人爽人人爽| 97视频一区| 国产理论一区二区三区| 热久久一区二区| 国产69精品久久99的直播节目| 国产视频一区二区在线| 狠狠色噜噜狠狠狠狠69| 99国产精品9| 激情aⅴ欧美一区二区三区| 精品国产免费一区二区三区| 久久99精品国产麻豆婷婷洗澡 | 中文字幕一区二区三区日韩精品| 国产超碰人人模人人爽人人添| 91精品久久久久久综合五月天| 亚洲欧洲日韩| 国产精品欧美久久久久一区二区| 欧美福利三区| 精品久久久久久中文字幕| 中文字幕日本一区二区| 精品视频在线一区二区三区| 91狠狠操| 欧美日韩偷拍一区| 免费**毛片| 日本久久不卡| 国产欧美一区二区三区在线看| 粉嫩久久99精品久久久久久夜| 午夜三级大片| 国产精品1区2区| 午夜黄色网址| 精品综合久久久久| 久久九精品| 国产午夜精品一区二区三区最新电影| 久久影视一区二区| 97国产精品久久久| 欧美日韩一区免费| 色一情一乱一乱一区99av白浆| 国产一区二区综合| 精品国产一区二区三区高潮视| 精品亚洲午夜久久久久91| 夜夜躁人人爽天天天天大学生| 毛片大全免费观看| 视频一区二区国产| 日韩欧美一区二区久久婷婷| 日韩亚洲精品视频| 国产69精品99久久久久久宅男| 男女午夜爽爽| 午夜生活理论片| 亚洲欧美v国产一区二区| 99日韩精品视频| 91午夜在线观看| 亚洲免费精品一区二区| 免费看农村bbwbbw高潮| 欧美午夜理伦三级在线观看偷窥| 国产精品一区二区三| 久精品国产| 素人av在线| 日本少妇一区二区三区| 爱看av在线入口| 免费高潮又黄又色又爽视频| 浪潮av网站| av素人在线| 日韩精品中文字幕久久臀|