[發(fā)明專利]一種基于BERT模型的文本語義相似度計算方法在審
| 申請?zhí)枺?/td> | 202011294655.6 | 申請日: | 2020-11-18 |
| 公開(公告)號: | CN112487823A | 公開(公告)日: | 2021-03-12 |
| 發(fā)明(設(shè)計)人: | 鄭穎龍;周昉昉;劉佳木;賴蔚蔚;吳廣財;鄭杰生;林嘉鑫;葉杭 | 申請(專利權(quán))人: | 廣東電力信息科技有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/284;G06F40/289;G06K9/62;G06N3/04 |
| 代理公司: | 北京世譽鑫誠專利代理有限公司 11368 | 代理人: | 任欣生 |
| 地址: | 510030 廣東省廣*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 bert 模型 文本 語義 相似 計算方法 | ||
1.一種基于BERT模型的文本語義相似度計算方法,其特征在于,包括:
對用戶輸入的兩個句子做子詞切分,得到兩個子詞序列;
分別在所述兩個子詞序列的頭部、連接處及尾部設(shè)置標記,得到完整的子詞序列;
將所述子詞序列輸入BERT模型,得到所述子詞序列中各個子詞對應(yīng)的語義向量;
將所述頭部標記對應(yīng)的語義向量輸入神經(jīng)網(wǎng)絡(luò)模型的全連接層,得到維度為2的語義向量,其中,所述維度為2的語義向量分別表示兩個句子相似和不相似;
將所述維度為2的語義向量輸入神經(jīng)網(wǎng)絡(luò)模型的Softmax層做歸一化,得到兩個句子相似的概率和不相似的概率;
根據(jù)所述兩個句子相似的概率和不相似的概率,確定所述兩個句子的語義相似度。
2.根據(jù)權(quán)利要求1所述的基于BERT模型的文本語義相似度計算方法,其特征在于,根據(jù)所述兩個句子相似的概率和不相似的概率,確定所述兩個句子的語義相似度包括:
判斷相似的概率是否大于不相似的概率,若是,則確定兩個句子相似并將相似的概率作為兩個句子的語義相似度,若否,則確定兩個句子不相似。
3.一種計算機程序產(chǎn)品,其特征在于,所述計算機程序產(chǎn)品包括存儲在非暫態(tài)計算機可讀存儲介質(zhì)上的計算機程序,所述計算機程序包括程序指令,當所述程序指令被計算機執(zhí)行時,使所述計算機執(zhí)行如權(quán)利要求1-2所述的方法。
4.一種非暫態(tài)計算機可讀存儲介質(zhì),其特征在于,所述非暫態(tài)計算機可讀存儲介質(zhì)存儲計算機指令,所述計算機指令使所述計算機執(zhí)行如權(quán)利要求1-2所述的方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣東電力信息科技有限公司,未經(jīng)廣東電力信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011294655.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種基于Bert的意圖確定方法及裝置
- 語言模型的訓(xùn)練方法、裝置和計算機設(shè)備
- 融合外部知識的BERT模型的微調(diào)方法、裝置及計算機設(shè)備
- 基于BERT-BTM網(wǎng)絡(luò)的微博突發(fā)事件檢測方法
- 生成文本數(shù)據(jù)的方法、裝置和計算機設(shè)備
- 基于卷積神經(jīng)網(wǎng)絡(luò)的BERT模型的微調(diào)方法及裝置
- 多語言BERT序列標注模型的壓縮方法及系統(tǒng)
- BERT模型的優(yōu)化方法及系統(tǒng)、電子設(shè)備及存儲介質(zhì)
- 一種基于BERT的多特征融合模糊文本分類系統(tǒng)
- 一種基于Bert+BiLSTM+CRF的知識元自動抽取方法





