日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]基于Bert模型的文本相似度計算方法和裝置在審

專利信息
申請號: 202010151330.6 申請日: 2020-03-06
公開(公告)號: CN111368037A 公開(公告)日: 2020-07-03
發明(設計)人: 周宸;駱加維;周寶;陳遠旭 申請(專利權)人: 平安科技(深圳)有限公司
主分類號: G06F16/33 分類號: G06F16/33;G06F40/284;G06F40/211;G06N3/04
代理公司: 北京匯思誠業知識產權代理有限公司 11444 代理人: 馮曉平
地址: 518000 廣東省深圳市福田區福*** 國省代碼: 廣東;44
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 基于 bert 模型 文本 相似 計算方法 裝置
【權利要求書】:

1.一種基于Bert模型的文本相似度計算方法,其特征在于,包括:

確定待比對文本句段;

采用詞頻詞現率算法,基于所述待比對文本句段得到第一文本矩陣;

通過預先訓練的Bert模型,基于所述待比對文本句段得到第二文本矩陣;

將所述第一文本矩陣和所述第二文本矩陣進行拼接,得到拼接文本矩陣;

對所述拼接文本矩陣進行特征優化,得到目標文本矩陣;

采用預設的相似度算法,根據所述目標文本矩陣得到所述待比對文本句段間的文本相似度。

2.根據權利要求1所述的方法,其特征在于,所述采用詞頻詞現率算法,基于所述待比對文本句段得到第一文本矩陣,包括:

根據所述待比對文本句段建立詞袋,其中,所述詞袋包括所述待比對文本句段中出現的字詞;

根據所述詞袋計算每個所述字詞在所述待比對文本句段中的詞頻,采用公式表示為其中,t表示字詞,d表示句段,tft,d表示字詞t是否在句段d中出現,若出現則取1,若沒有出現則gt,d取0,gt,d表示一個字詞在一所述待比對文本句段中的占比;

根據所述詞袋計算逆向文件頻率,采用公式表示為其中,N表示文件總個數,所述文件是預先確定的,dft表示有n個文件含有字詞t,所述n為大于或等于0的整數;

根據所述詞頻和所述逆向文件頻率得到所述第一文本矩陣,所述第一文本矩陣中的元素采用公式計算得到。

3.根據權利要求1所述的方法,其特征在于,所述在通過預先訓練的Bert模型,基于所述待比對文本句段得到第二文本矩陣之前,還包括Bert模型的訓練過程,包括如下步驟:

獲取原始語料;

將所述原始語料進行字符級的分割;

根據所述原始語料構建句子對,其中,所述句子對包括正樣本句子對和負樣本句子對,所述正樣本句子對存在句子間的上下文關系,所述負樣本句子對不存在句子間的上下文關系;

基于字符級分割后的所述原始語料連接所述句子對;

隨機遮掩所述句子對中百分之十的字符,得到訓練語料;

將所述訓練語料輸入到初始Bert模型中進行訓練,得到所述Bert模型。

4.根據權利要求1所述的方法,其特征在于,所述將所述第一文本矩陣和所述第二文本矩陣進行拼接,得到拼接文本矩陣,包括:

判斷所述第一文本矩陣和所述第二文本矩陣的矩陣尺寸是否相同;

若相同,將所述第一文本矩陣和所述第二文本矩陣進行拼接,得到所述拼接文本矩陣;

若不相同,采用主成分分析法對所述第一文本矩陣進行降維,使所述第一文本矩陣的矩陣尺寸等于所述第二文本矩陣的矩陣尺寸,并在降維后拼接所述第一文件矩陣和所述第二文本矩陣,得到所述拼接文本矩陣。

5.根據權利要求1至4任意一項所述的方法,其特征在于,所述對所述拼接文本矩陣進行特征優化,得到目標文本矩陣,包括:

基于主成分分析的方法,計算所述拼接文本矩陣的詞向量vS,采用公式表示為其中,S為所述拼接文本矩陣,vt為字詞t在所述拼接文本矩陣中的向量,α為預設的平滑參數,pt為字詞在文件中出現的概率;

采用截斷奇異值分解方法得到所述詞向量vS的主成分u;

根據所述詞向量vS和所述主成分u對所述詞向量vS進行特征優化,得到更新后的所述詞向量,采用公式表示為v′S=vS-u(uT)vS,其中,T表示轉置矩陣運算:

根據更新后的所述詞向量v′S得到所述目標文本矩陣。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/202010151330.6/1.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖、流程工藝圖技術構造圖;

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 国产精品国产三级国产专区52| 国产的欧美一区二区三区| 好吊妞国产欧美日韩软件大全| 岛国黄色网址| 国产偷国产偷亚洲清高| 国产婷婷一区二区三区久久| 国产一区二区免费电影| 国产欧美日韩亚洲另类第一第二页| 久久艹国产精品| 久久久久偷看国产亚洲87| 国产女人与拘做受免费视频| 国产一区激情| 欧美精品国产精品| 欧美精品久| 综合在线一区| 欧美日韩一级在线观看| 天干天干天啪啪夜爽爽99| 久久国产精品视频一区| 国产一卡在线| 一区二区三区国产精品视频| 亚洲国产精品网站| 久久五月精品| 最新日韩一区| 国产精品国产三级国产播12软件| 久久福利视频网| 一区二区三区四区视频在线| 免费视频拗女稀缺一区二区| 欧美乱妇高清无乱码免费| 91精品啪在线观看国产线免费| 午夜免费网址| 欧美日韩亚洲国产一区| 国产精品久久久久久一区二区三区| 久久久久久中文字幕| a级片一区| 久久网站精品| 日韩中文字幕在线一区| 精品国产一二区| 亚洲精品国产suv| 欧洲在线一区| 色噜噜日韩精品欧美一区二区| 欧美国产精品久久| 色一情一乱一乱一区99av白浆| 国产日韩欧美亚洲综合| 日韩精品久久久久久中文字幕8| 亚洲一区中文字幕| 欧美激情综合在线| 久久一区二区三区视频| 亚洲精品一区二区另类图片| 久久国产欧美一区二区三区免费| 乱子伦农村| 久久免费精品国产| 狠狠色噜狠狠狠狠| 亚洲国产欧美一区二区丝袜黑人| 国产精品综合一区二区| 欧美一区二区三区四区夜夜大片| 久久精品爱爱视频| 李采潭伦理bd播放| 欧美视屏一区二区| 神马久久av| 综合久久国产九一剧情麻豆| av午夜在线观看| 国产乱xxxxx国语对白| 欧美日韩一区二区高清| 国产精品美女久久久免费| 亚洲欧洲另类精品久久综合| 国产1区2区3区| 国产区91| 精品国产一区二区三区久久久久久 | 欧美精品乱码视频一二专区| 国产精品欧美久久| 欧美精选一区二区三区| 久久综合伊人77777麻豆最新章节| 国产91热爆ts人妖在线| 国产精品国产亚洲精品看不卡15| 久久国产欧美一区二区免费| 国产91高清| 日本三级韩国三级国产三级| 91麻豆精品国产91久久久资源速度| 三级电影中文| 国产农村妇女精品一区二区 | 一本大道久久a久久精品| 少妇自拍一区|