[發(fā)明專利]一種基于BERT模型的文本語義相似度計算方法在審
| 申請?zhí)枺?/td> | 202011294655.6 | 申請日: | 2020-11-18 |
| 公開(公告)號: | CN112487823A | 公開(公告)日: | 2021-03-12 |
| 發(fā)明(設(shè)計)人: | 鄭穎龍;周昉昉;劉佳木;賴蔚蔚;吳廣財;鄭杰生;林嘉鑫;葉杭 | 申請(專利權(quán))人: | 廣東電力信息科技有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/284;G06F40/289;G06K9/62;G06N3/04 |
| 代理公司: | 北京世譽鑫誠專利代理有限公司 11368 | 代理人: | 任欣生 |
| 地址: | 510030 廣東省廣*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 bert 模型 文本 語義 相似 計算方法 | ||
本發(fā)明公開的基于BERT模型的文本語義相似度計算方法,通過對用戶輸入的兩個句子做子詞切分,得到兩個子詞序列,分別在兩個子詞序列的頭部、連接處及尾部設(shè)置標記,得到完整的子詞序列,將子詞序列輸入BERT模型,得到子詞序列中各個子詞對應(yīng)的語義向量,將頭部特殊標記對應(yīng)的語義向量輸入神經(jīng)網(wǎng)絡(luò)模型的全連接層,得到維度為2的語義向量,將維度為2的語義向量輸入神經(jīng)網(wǎng)絡(luò)模型的Softmax層做歸一化,得到兩個句子相似的概率和不相似的概率,根據(jù)兩個句子相似的概率和不相似的概率,確定兩個句子的語義相似度,避免了因分詞可能引入的錯誤,能夠考慮文本的上下文語義,提高了語義相似度計算的精確度。
技術(shù)領(lǐng)域
本發(fā)明涉及文本處理技術(shù)領(lǐng)域,具體涉及一種基于BERT模型的文本語義相似度計算方法。
背景技術(shù)
語義相似度計算是人工智能自然語言處理領(lǐng)域的基礎(chǔ)任務(wù)之一,是文本查重、智能問答等上層應(yīng)用的基礎(chǔ)支撐技術(shù)。語義相似度意在對于給定的兩個文本,從語義的角度度量二者之間的相似性,通常會給出一個0到1之間的語義相似度分值,分值越高代表越相似。
現(xiàn)有的語義相似度方案有的基于字面進行計算,無法考慮語義上的相似性。有的方案基于Word2Vec等靜態(tài)詞向量計算語義相似度,無法考慮一詞多義的情況,另外由于需要先進行分詞,可能存在分詞錯誤的情況,導(dǎo)致語義相似度計算的精確度較低。
發(fā)明內(nèi)容
為解決現(xiàn)有技術(shù)的不足,本發(fā)明實施例提供了一種基于BERT模型的文本語義相似度計算方法,該方法包括以下步驟:
對用戶輸入的兩個句子做子詞切分,得到兩個子詞序列;
分別在所述兩個子詞序列的頭部、連接處及尾部設(shè)置標記,得到完整的子詞序列;
將所述子詞序列輸入BERT模型,得到所述子詞序列中各個子詞對應(yīng)的語義向量;
將所述頭部特殊標記對應(yīng)的語義向量輸入神經(jīng)網(wǎng)絡(luò)模型的全連接層,得到維度為2的語義向量,其中,所述維度為2的語義向量分別表示兩個句子相似和不相似;
將所述維度為2的語義向量輸入神經(jīng)網(wǎng)絡(luò)模型的Softmax層做歸一化,得到兩個句子相似的概率和不相似的概率;
根據(jù)所述兩個句子相似的概率和不相似的概率,確定所述兩個句子的語義相似度。
優(yōu)選地,根據(jù)所述兩個句子相似的概率和不相似的概率,確定所述兩個句子的語義相似度包括:
判斷相似的概率是否大于不相似的概率,若是,則確定兩個句子相似并將相似的概率作為兩個句子的語義相似度,若否,則確定兩個句子不相似。
本發(fā)明實施例提供的基于BERT模型的文本語義相似度計算方法,具有以下有益效果:
將BERT模型應(yīng)用于計算文本語義相似度,能夠達到更好的語義建模效果,基于字符計算語義相似度,不依賴分詞,避免了因分詞可能引入的錯誤,能夠考慮文本的上下文語義,提高了語義相似度計算的精確度。
具體實施方式
以下結(jié)合具體實施例對本發(fā)明作具體的介紹。
本發(fā)明提供的實施例提供的基于BERT模型的文本語義相似度計算方法,包括以下步驟:
S101,對用戶輸入的兩個句子做子詞切分,得到兩個子詞序列。
其中,每個漢字都是一個子詞,一個英文單詞可能會被切分成多個子詞。
S102,分別在所述兩個子詞序列的頭部、連接處及尾部設(shè)置標記,得到完整的子詞序列。
作為本發(fā)明一個具體的實施例,對于A1、A2...An和B1、B2...Bm兩個子詞序列,得到的完整的子詞序列為[CLS]、A1、A2...An、[sep]、B1、B2...Bm、[sep]。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣東電力信息科技有限公司,未經(jīng)廣東電力信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011294655.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種基于Bert的意圖確定方法及裝置
- 語言模型的訓(xùn)練方法、裝置和計算機設(shè)備
- 融合外部知識的BERT模型的微調(diào)方法、裝置及計算機設(shè)備
- 基于BERT-BTM網(wǎng)絡(luò)的微博突發(fā)事件檢測方法
- 生成文本數(shù)據(jù)的方法、裝置和計算機設(shè)備
- 基于卷積神經(jīng)網(wǎng)絡(luò)的BERT模型的微調(diào)方法及裝置
- 多語言BERT序列標注模型的壓縮方法及系統(tǒng)
- BERT模型的優(yōu)化方法及系統(tǒng)、電子設(shè)備及存儲介質(zhì)
- 一種基于BERT的多特征融合模糊文本分類系統(tǒng)
- 一種基于Bert+BiLSTM+CRF的知識元自動抽取方法





