[發(fā)明專(zhuān)利]基于BERT預(yù)訓(xùn)練模型的新詞識(shí)別方法和裝置在審
| 申請(qǐng)?zhí)枺?/td> | 202110165682.1 | 申請(qǐng)日: | 2021-02-06 |
| 公開(kāi)(公告)號(hào): | CN112883721A | 公開(kāi)(公告)日: | 2021-06-01 |
| 發(fā)明(設(shè)計(jì))人: | 邵德奇;石聰;關(guān)培培;朱經(jīng)南;趙詩(shī)陽(yáng);馮超;李騰飛;段治平 | 申請(qǐng)(專(zhuān)利權(quán))人: | 科技日?qǐng)?bào)社 |
| 主分類(lèi)號(hào): | G06F40/279 | 分類(lèi)號(hào): | G06F40/279;G06F40/289;G06K9/62;G06N3/04 |
| 代理公司: | 北京瀛和律師事務(wù)所 11744 | 代理人: | 邵曉玉 |
| 地址: | 100089*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 bert 訓(xùn)練 模型 新詞 識(shí)別 方法 裝置 | ||
本發(fā)明提供了一種基于BERT預(yù)訓(xùn)練模型的新詞識(shí)別方法和裝置,涉及新詞挖掘的技術(shù)領(lǐng)域,包括獲取語(yǔ)料信息,通過(guò)N?Gram切詞算法對(duì)語(yǔ)料信息進(jìn)行分詞處理得到多個(gè)新詞詞語(yǔ);將新詞詞語(yǔ)輸入BERT預(yù)訓(xùn)練模型的淺層網(wǎng)絡(luò),輸出淺層稠密向量,其中,BERT預(yù)訓(xùn)練模型中引入有雙向自注意力網(wǎng)絡(luò),淺層稠密向量包括新詞詞語(yǔ)的句法特征向量以及詞法特征向量,淺層稠密向量用于識(shí)別新詞詞語(yǔ)的邊界信息;提取新詞詞語(yǔ)的離散特征;將淺層稠密向量與離散特征輸入DNN二分類(lèi)模型,識(shí)別出正確的新詞詞語(yǔ),通過(guò)BERT預(yù)訓(xùn)練模型的淺層網(wǎng)絡(luò)確定詞語(yǔ)的邊界,進(jìn)而準(zhǔn)確識(shí)別出正確的新詞。
技術(shù)領(lǐng)域
本發(fā)明涉及新詞挖掘技術(shù)領(lǐng)域,尤其是涉及一種基于BERT預(yù)訓(xùn)練模型的新詞識(shí)別方法和裝置。
背景技術(shù)
隨著互聯(lián)網(wǎng)科技的飛速發(fā)展,經(jīng)常會(huì)鑄造出一些新興詞匯,即“新詞”。在當(dāng)前的語(yǔ)義識(shí)別場(chǎng)景中,往往由于無(wú)法準(zhǔn)確識(shí)別出語(yǔ)句中的新詞,而不能正確識(shí)別出語(yǔ)句含義。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于BERT預(yù)訓(xùn)練模型的新詞識(shí)別方法和裝置,通過(guò)BERT預(yù)訓(xùn)練模型的淺層網(wǎng)絡(luò)確定詞語(yǔ)的邊界,進(jìn)而準(zhǔn)確識(shí)別出正確的新詞。
第一方面,本發(fā)明實(shí)施例提供了一種基于BERT預(yù)訓(xùn)練模型的新詞識(shí)別方法,包括:
獲取語(yǔ)料信息,通過(guò)N-Gram切詞算法對(duì)所述語(yǔ)料信息進(jìn)行分詞處理得到多個(gè)新詞詞語(yǔ);
將所述新詞詞語(yǔ)輸入BERT預(yù)訓(xùn)練模型的淺層網(wǎng)絡(luò),輸出淺層稠密向量,其中,所述BERT預(yù)訓(xùn)練模型中引入有雙向自注意力網(wǎng)絡(luò),所述淺層稠密向量包括所述新詞詞語(yǔ)的句法特征向量以及詞法特征向量,所述淺層稠密向量用于識(shí)別所述新詞詞語(yǔ)的邊界信息;
提取所述新詞詞語(yǔ)的離散特征;
將所述淺層稠密向量與所述離散特征輸入DNN二分類(lèi)模型,識(shí)別出正確的新詞詞語(yǔ)。
結(jié)合第一方面,本發(fā)明實(shí)施例提供了第一方面的第一種可能的實(shí)施方式,其中,將所述淺層稠密向量與所述離散特征輸入DNN二分類(lèi)模型,識(shí)別出正確的新詞詞語(yǔ)的步驟,包括:
將所述淺層稠密向量與所述離散特征輸入DNN二分類(lèi)模型;
根據(jù)輸出結(jié)果判斷所述新詞詞語(yǔ)是否為正確的真詞,其中,所述輸出結(jié)果包括所述新詞詞語(yǔ)為正確的真詞的概率;
若所述新詞詞語(yǔ)為正確的真詞的概率大于預(yù)設(shè)概率值,則將所述新詞詞語(yǔ)為正確的真詞。
結(jié)合第一方面,本發(fā)明實(shí)施例提供了第一方面的第二種可能的實(shí)施方式,其中,所述方法還包括:
若所述新詞詞語(yǔ)為正確的真詞,則通過(guò)所述新詞詞語(yǔ)反饋調(diào)節(jié)所述DNN二分類(lèi)模型和所述BERT預(yù)訓(xùn)練模型。
結(jié)合第一方面,本發(fā)明實(shí)施例提供了第一方面的第三種可能的實(shí)施方式,其中,所述方法還包括:
對(duì)識(shí)別新詞詞語(yǔ)后的語(yǔ)料信息進(jìn)行語(yǔ)義識(shí)別。
結(jié)合第一方面,本發(fā)明實(shí)施例提供了第一方面的第四種可能的實(shí)施方式,其中,通過(guò)N-Gram切詞算法對(duì)所述語(yǔ)料信息進(jìn)行分詞處理得到多個(gè)新詞詞語(yǔ)的步驟,包括:
通過(guò)N-Gram切詞算法,將所述語(yǔ)料信息進(jìn)行切分過(guò)濾,生成多個(gè)新詞詞語(yǔ),所述新詞詞語(yǔ)為多種預(yù)設(shè)字節(jié)長(zhǎng)度的字節(jié)片段。
結(jié)合第一方面,本發(fā)明實(shí)施例提供了第一方面的第五種可能的實(shí)施方式,其中,所述淺層網(wǎng)絡(luò)包括所述BERT預(yù)訓(xùn)練模型的第2層和第3層。
結(jié)合第一方面,本發(fā)明實(shí)施例提供了第一方面的第六種可能的實(shí)施方式,其中,所述離散特征包括左右信息熵,互信息和統(tǒng)計(jì)數(shù)值tf-idf。
第二方面,本發(fā)明實(shí)施例還提供一種基于BERT預(yù)訓(xùn)練模型的新詞識(shí)別裝置,包括:
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于科技日?qǐng)?bào)社,未經(jīng)科技日?qǐng)?bào)社許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110165682.1/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 一種基于Bert的意圖確定方法及裝置
- 語(yǔ)言模型的訓(xùn)練方法、裝置和計(jì)算機(jī)設(shè)備
- 融合外部知識(shí)的BERT模型的微調(diào)方法、裝置及計(jì)算機(jī)設(shè)備
- 基于BERT-BTM網(wǎng)絡(luò)的微博突發(fā)事件檢測(cè)方法
- 生成文本數(shù)據(jù)的方法、裝置和計(jì)算機(jī)設(shè)備
- 基于卷積神經(jīng)網(wǎng)絡(luò)的BERT模型的微調(diào)方法及裝置
- 多語(yǔ)言BERT序列標(biāo)注模型的壓縮方法及系統(tǒng)
- BERT模型的優(yōu)化方法及系統(tǒng)、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種基于BERT的多特征融合模糊文本分類(lèi)系統(tǒng)
- 一種基于Bert+BiLSTM+CRF的知識(shí)元自動(dòng)抽取方法
- 等級(jí)精細(xì)視力訓(xùn)練表
- 視覺(jué)盲點(diǎn)演示與旁中心注視訓(xùn)練儀
- 一種訓(xùn)練室
- 視覺(jué)盲點(diǎn)演示與旁中心注視訓(xùn)練儀
- 一種訓(xùn)練室
- 康復(fù)訓(xùn)練器及其定量訓(xùn)練方法和定量訓(xùn)練裝置
- 一種分布式訓(xùn)練中梯度同步方法及裝置
- 訓(xùn)練模型的訓(xùn)練時(shí)長(zhǎng)預(yù)測(cè)方法及裝置
- 一種模型訓(xùn)練方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種計(jì)算機(jī)輔助的自閉癥兒童情感社交康復(fù)訓(xùn)練系統(tǒng)





