[發(fā)明專利]基于BERT和Word2Vec向量融合的中文實(shí)體識(shí)別方法在審
| 申請(qǐng)?zhí)枺?/td> | 202011462808.3 | 申請(qǐng)日: | 2020-12-14 |
| 公開(kāi)(公告)號(hào): | CN112632997A | 公開(kāi)(公告)日: | 2021-04-09 |
| 發(fā)明(設(shè)計(jì))人: | 張有強(qiáng) | 申請(qǐng)(專利權(quán))人: | 河北工程大學(xué) |
| 主分類號(hào): | G06F40/295 | 分類號(hào): | G06F40/295;G06F40/30 |
| 代理公司: | 廈門一創(chuàng)聯(lián)智知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 35252 | 代理人: | 李燕麗 |
| 地址: | 056000 河北省*** | 國(guó)省代碼: | 河北;13 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 bert word2vec 向量 融合 中文 實(shí)體 識(shí)別 方法 | ||
1.一種基于BERT和Word2Vec向量融合的中文實(shí)體識(shí)別方法,其特征在于,利用BERT模型獲取句子中每個(gè)字的動(dòng)態(tài)字向量,利用Word2Vec獲取靜態(tài)詞向量,通過(guò)設(shè)計(jì)的兩種融合策略對(duì)多個(gè)候選詞向量進(jìn)行融合,然后與字向量拼接,輸入到Bi-LSTM-CRF進(jìn)行模型訓(xùn)練,自動(dòng)抽取文本中指定類型的實(shí)體。
2.根據(jù)權(quán)利要求1所述的一種基于BERT和Word2Vec向量融合的中文實(shí)體識(shí)別方法,其特征在于,所述中文實(shí)體識(shí)別方法具體包括以下步驟:
步驟1,獲取海量中文文本并進(jìn)行預(yù)處理,利用Python中的jieba模塊對(duì)文本進(jìn)行分詞,訓(xùn)練Word2Vec模型,獲取靜態(tài)詞向量表;
步驟2,對(duì)BERT模型進(jìn)行預(yù)訓(xùn)練,把中文文本構(gòu)造成BERT模型需要的輸入格式,具體分為以下幾步:
2.1對(duì)于原始語(yǔ)料,通過(guò)換行來(lái)分割句子,通過(guò)空行來(lái)分割上下文段落;
2.2構(gòu)建BERT下一句預(yù)測(cè)預(yù)訓(xùn)練任務(wù)需要的樣本,其中正樣本表示的是輸入的兩個(gè)句子是存在上下文關(guān)系的連續(xù)的兩個(gè)句子;負(fù)樣本表示的是不存在語(yǔ)義關(guān)系的隨機(jī)選擇的兩個(gè)句子;
2.3對(duì)于超過(guò)設(shè)定的最大長(zhǎng)度的句子,隨機(jī)選擇從句首或句尾進(jìn)行截?cái)啵?/p>
2.4將待輸入的兩個(gè)句子用[SEP]標(biāo)簽連接,并且在整個(gè)句首添加[CLS]標(biāo)簽,整個(gè)句尾添加[SEP]標(biāo)簽;
2.5構(gòu)建BERT遮蔽語(yǔ)言模型預(yù)訓(xùn)練任務(wù)需要的樣本,隨機(jī)選擇句子中15%的字符進(jìn)行遮蔽,對(duì)于選中的字符80%的時(shí)間用[MASK]代替,10%的時(shí)間用隨機(jī)選擇的一個(gè)字符代替,10%的時(shí)間保持原字符不變;
步驟3,根據(jù)上述兩個(gè)預(yù)訓(xùn)練任務(wù)訓(xùn)練BERT模型,訓(xùn)練目標(biāo)分別是預(yù)測(cè)當(dāng)前輸入的句子對(duì)是否是存在上下文關(guān)系的句子和預(yù)測(cè)被遮蔽掉字符的原始內(nèi)容,最終獲得預(yù)訓(xùn)練好的BERT模型;
步驟4,中文命名實(shí)體識(shí)別數(shù)據(jù)集的獲取、預(yù)處理以及標(biāo)注,具體標(biāo)注方式一般采用BIO標(biāo)注法,其中B表示實(shí)體開(kāi)始字符,I表示實(shí)體中間和結(jié)尾字符,O表示非實(shí)體字符;
步驟5,將步驟4得到的標(biāo)注好的數(shù)據(jù)集進(jìn)行預(yù)處理,給每一個(gè)句子的句首添加[CLS]標(biāo)簽,句尾添加[SEP]標(biāo)簽,將處理好的句子輸入步驟3預(yù)訓(xùn)練好的BERT模型,獲取BERT模型輸出的句子中每一個(gè)字符的字向量;
步驟6,對(duì)步驟4得到的數(shù)據(jù)集中的每一個(gè)句子,通過(guò)與詞匯表匹配的方式獲取該句子包含的所有候選詞語(yǔ)的詞向量,將句子中每個(gè)字對(duì)應(yīng)的候選詞向量通過(guò)兩種詞向量融合策略進(jìn)行融合,來(lái)表示每個(gè)字在詞匯層面的語(yǔ)義含義,具體包含以下兩種融合策略:
6.1詞向量融合策略一:對(duì)句子中每個(gè)字的候選詞向量進(jìn)行求和取均值,以“廣州市長(zhǎng)隆公園”句子為例,“廣”字包含“廣州”和“廣州市”兩個(gè)匹配的候選詞語(yǔ),首先查詢?cè)~向量表獲得兩個(gè)詞語(yǔ)的詞向量,然后對(duì)兩個(gè)詞向量求和取均值作為“廣”字的詞向量表示部分。
6.2詞向量融合策略二:對(duì)句子中每個(gè)字的候選詞向量以詞頻作為權(quán)重進(jìn)行加權(quán)求和,同樣以上述例子為例,首先統(tǒng)計(jì)“廣州”和“廣州市”在數(shù)據(jù)集中出現(xiàn)的總次數(shù),然后將兩個(gè)詞出現(xiàn)的次數(shù)分別除以兩個(gè)詞的總次數(shù)作為兩個(gè)詞向量的權(quán)重,最后將權(quán)重和詞向量相乘并求和作為“廣”字的詞向量表示部分,其余字符同理,當(dāng)某個(gè)字不存在候選詞語(yǔ)時(shí),用[None]的詞向量表示該字的詞向量部分,維度同其他詞向量維度一樣。
步驟7,將步驟6得到的每個(gè)字的詞向量與步驟5得到的每個(gè)字的字向量進(jìn)行拼接,獲得每個(gè)字符的最終字向量;
步驟8,將步驟7得到的字向量輸入Bi-LSTM-CRF模型進(jìn)行訓(xùn)練預(yù)測(cè),獲得實(shí)體識(shí)別結(jié)果。
3.根據(jù)權(quán)利要求2所述的一種基于BERT和Word2Vec向量融合的中文實(shí)體識(shí)別方法,其特征在于,步驟1、2中所述的中文文本預(yù)處理主要包括將通過(guò)爬蟲或其他途徑獲取的文本數(shù)據(jù)去除無(wú)用符號(hào)、重復(fù)數(shù)據(jù)以及規(guī)范數(shù)據(jù)格式等。
4.根據(jù)權(quán)利要求3所述的一種基于BERT和Word2Vec向量融合的中文實(shí)體識(shí)別方法,其特征在于,所述步驟2中,對(duì)于長(zhǎng)度不夠的句子需要用[PAD]標(biāo)簽進(jìn)行補(bǔ)齊,最終將定長(zhǎng)句子輸入BERT模型進(jìn)行訓(xùn)練。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于河北工程大學(xué),未經(jīng)河北工程大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011462808.3/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種基于Bert的意圖確定方法及裝置
- 語(yǔ)言模型的訓(xùn)練方法、裝置和計(jì)算機(jī)設(shè)備
- 融合外部知識(shí)的BERT模型的微調(diào)方法、裝置及計(jì)算機(jī)設(shè)備
- 基于BERT-BTM網(wǎng)絡(luò)的微博突發(fā)事件檢測(cè)方法
- 生成文本數(shù)據(jù)的方法、裝置和計(jì)算機(jī)設(shè)備
- 基于卷積神經(jīng)網(wǎng)絡(luò)的BERT模型的微調(diào)方法及裝置
- 多語(yǔ)言BERT序列標(biāo)注模型的壓縮方法及系統(tǒng)
- BERT模型的優(yōu)化方法及系統(tǒng)、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種基于BERT的多特征融合模糊文本分類系統(tǒng)
- 一種基于Bert+BiLSTM+CRF的知識(shí)元自動(dòng)抽取方法
- 一種基于word2vec?LDA模型的文本主題詞提取方法
- 一種基于數(shù)據(jù)特征降維編碼的流媒體內(nèi)容分發(fā)方法
- 一種基于用戶行為序列的個(gè)性化推薦系統(tǒng)召回方法、系統(tǒng)、裝置及存儲(chǔ)介質(zhì)
- 一種基于用戶行為序列和數(shù)據(jù)融合的推薦系統(tǒng)召回方法及系統(tǒng)
- 動(dòng)態(tài)調(diào)整Word2Vec模型詞典的方法、裝置、介質(zhì)及電子設(shè)備
- 一種基于Word2Vec模型的WordNet中詞語(yǔ)相似度計(jì)算方法
- 一種基于word2vec技術(shù)的相似度比較方法及裝置
- 一種自動(dòng)發(fā)現(xiàn)音頻關(guān)鍵詞到分類映射關(guān)系的方法
- 一種面向模板基于Word2vec的日志異常檢測(cè)方法及裝置
- 一種word2vec模型訓(xùn)練、數(shù)據(jù)召回方法及裝置
- 移動(dòng)向量解碼方法和移動(dòng)向量解碼裝置
- 一種用于支持向量機(jī)的在線向量選取方法
- 用于在幀序列中執(zhí)行運(yùn)動(dòng)估計(jì)的數(shù)據(jù)處理系統(tǒng)和方法
- 神經(jīng)網(wǎng)絡(luò)的處理方法及裝置、存儲(chǔ)介質(zhì)、電子設(shè)備
- 字符序列處理方法及設(shè)備
- 向量獲取方法、裝置、電子設(shè)備以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 向量獲取方法、裝置、電子設(shè)備以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 近鄰向量的召回方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種向量運(yùn)算裝置及運(yùn)算方法
- 生成類別向量的方法和裝置





