[發(fā)明專利]一種基于預(yù)訓(xùn)練模型和位置信息的文本結(jié)構(gòu)化方法在審
| 申請(qǐng)?zhí)枺?/td> | 202110454738.5 | 申請(qǐng)日: | 2021-04-26 |
| 公開(kāi)(公告)號(hào): | CN112989836A | 公開(kāi)(公告)日: | 2021-06-18 |
| 發(fā)明(設(shè)計(jì))人: | 蔡婷婷;葉琪;阮彤;張維彥;鄭紅 | 申請(qǐng)(專利權(quán))人: | 華東理工大學(xué) |
| 主分類號(hào): | G06F40/295 | 分類號(hào): | G06F40/295;G06F16/951 |
| 代理公司: | 暫無(wú)信息 | 代理人: | 暫無(wú)信息 |
| 地址: | 200237 *** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 訓(xùn)練 模型 位置 信息 文本 結(jié)構(gòu) 方法 | ||
1.一種基于預(yù)訓(xùn)練模型和位置信息的文本結(jié)構(gòu)化方法,具體步驟為:
S1、從新聞網(wǎng)站爬取事件文本進(jìn)行人工標(biāo)注,得到文本結(jié)構(gòu)化的有監(jiān)督數(shù)據(jù)集A,并對(duì)所述數(shù)據(jù)集進(jìn)行預(yù)處理作為后續(xù)模型的輸入;
S2、將預(yù)處理后的有監(jiān)督文本作為輸入,訓(xùn)練命名實(shí)體識(shí)別模型BERT-CRF,以BIO標(biāo)簽體系的形式輸出文本中的通用實(shí)體;
S3、將每條文本中的通用實(shí)體作為輸入,訓(xùn)練多標(biāo)簽分類模型BERT-Dense,輸出每個(gè)實(shí)體所屬的相關(guān)人群類型;
S4、把相關(guān)人群姓名作為主體詞,根據(jù)新聞文本的結(jié)構(gòu)特性,基于位置信息獲取該主體詞的屬性,得到最終的多主體文本結(jié)構(gòu)化。
2.根據(jù)權(quán)利要求1所述的一種基于預(yù)訓(xùn)練模型和位置信息的文本結(jié)構(gòu)化方法,其特征在于,所述的步驟S1具體包括:
S11、從新聞網(wǎng)站爬取事件文本,作為文本結(jié)構(gòu)化的原始語(yǔ)料;
S12、基于人工定義的標(biāo)注規(guī)范,對(duì)抽取的原始語(yǔ)料進(jìn)行人工標(biāo)注,形成有監(jiān)督信號(hào)的文本數(shù)據(jù)集A;
S13、在A中每條文本的首部加上特殊字符“[CLS]”,尾部加上特殊字符“[SEP]”;
S14、確定最大序列長(zhǎng)度,將每條文本都固定到這個(gè)長(zhǎng)度上,即如果原始序列的長(zhǎng)度大于該長(zhǎng)度就截?cái)啵绻∮诰陀谩癧PAD]”字符補(bǔ)齊。
3.根據(jù)權(quán)利要求1所述的一種基于預(yù)訓(xùn)練模型和位置信息的文本結(jié)構(gòu)化方法,其特征在于,所述的步驟S2具體包括:
S21、將預(yù)處理后的有監(jiān)督文本作為輸入,訓(xùn)練BERT-CRF模型;
S22、將訓(xùn)練好的BERT-CRF模型預(yù)測(cè)測(cè)試集,得到一個(gè)維度為m*n*l的三維矩陣S,其中m為文本的數(shù)量,n為預(yù)先定義的最大序列長(zhǎng)度,l為人工標(biāo)注的通用實(shí)體在BIO標(biāo)簽體系下的種類數(shù),三維矩陣S中的某個(gè)數(shù)S[i][j][t],其中0≤i≤m-1,0≤j≤,n-1≤t≤l-1,代表第i條文本中的第j個(gè)字符屬于第t種標(biāo)簽的概率,其中,0≤p[i][j][t]≤1;
S23、將BERT-CRF模型輸出的三維矩陣S轉(zhuǎn)換為二維矩陣M,M[i][j]=argmax(S[i][j]),其中,0≤i≤m-1,0≤j≤n-1,M[i][j]對(duì)于第i條文本中的第j個(gè)字符,取其最大概率所對(duì)應(yīng)的索引值;
S24、基于矩陣M中的最大概率所對(duì)應(yīng)的索引值,將其轉(zhuǎn)化為BIO標(biāo)簽的形式,得到文本中通用實(shí)體的命名實(shí)體識(shí)別。
4.根據(jù)權(quán)利要求1所述的一種基于預(yù)訓(xùn)練模型和位置信息的文本結(jié)構(gòu)化方法,其特征在于,所述的步驟S3具體包括:
S31、將每條文本中的通用實(shí)體作為輸入,以特殊字符“[unused1]”,“[unused2]”,“[unused3]”……來(lái)表示文本中的通用實(shí)體,訓(xùn)練多標(biāo)簽分類模型BERT-Dense;
S32、整體模型的損失函數(shù)采用交叉熵,表示真實(shí)概率分布與預(yù)測(cè)概率分布之間的差異,優(yōu)化目標(biāo)為最小化交叉熵值,目標(biāo)函數(shù)為:
其中,n代表樣本數(shù)量,p(xi)代表第i個(gè)樣本的真實(shí)概率分布,q(xi)表示預(yù)測(cè)概率分布;
S33、將訓(xùn)練好的多標(biāo)簽分類模型BERT-Dense去預(yù)測(cè)測(cè)試集,得到一個(gè)x*y維度的二維矩陣H,其中,x代表有監(jiān)督文本數(shù)據(jù)集A中通用實(shí)體的總數(shù),y代表A中相關(guān)人群的種類數(shù),二維矩陣H中的某個(gè)數(shù)H[i][j]代表第i個(gè)通用實(shí)體屬于第j種相關(guān)人群的概率;
S34、對(duì)于H[i]中的概率值,若結(jié)果大于0.5,則設(shè)置第i個(gè)通用實(shí)體的類型標(biāo)簽。
5.根據(jù)權(quán)利要求1所述的一種基于預(yù)訓(xùn)練模型和位置信息的文本結(jié)構(gòu)化方法,其特征在于,所述的步驟S4具體包括:
S41、將S2和S3步驟中所識(shí)別的相關(guān)人群的姓名作為主體詞;
S42、對(duì)于任一主體詞,篩選出和該主體詞屬于同一相關(guān)人群的實(shí)體;
S43、將出現(xiàn)在主體詞之后,且距離主體詞最近的實(shí)體作為該主體詞的屬性,組成一個(gè)多元組,得到最終的多主體文本結(jié)構(gòu)化。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華東理工大學(xué),未經(jīng)華東理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110454738.5/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 等級(jí)精細(xì)視力訓(xùn)練表
- 視覺(jué)盲點(diǎn)演示與旁中心注視訓(xùn)練儀
- 一種訓(xùn)練室
- 視覺(jué)盲點(diǎn)演示與旁中心注視訓(xùn)練儀
- 一種訓(xùn)練室
- 康復(fù)訓(xùn)練器及其定量訓(xùn)練方法和定量訓(xùn)練裝置
- 一種分布式訓(xùn)練中梯度同步方法及裝置
- 訓(xùn)練模型的訓(xùn)練時(shí)長(zhǎng)預(yù)測(cè)方法及裝置
- 一種模型訓(xùn)練方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種計(jì)算機(jī)輔助的自閉癥兒童情感社交康復(fù)訓(xùn)練系統(tǒng)
- 位置檢測(cè)裝置、位置檢測(cè)電路及位置檢測(cè)方法
- 位置估計(jì)設(shè)備、位置估計(jì)方法、以及位置估計(jì)系統(tǒng)
- 位置檢測(cè)裝置、位置檢測(cè)方法及位置檢測(cè)程序
- 位置辨識(shí)裝置、位置辨識(shí)系統(tǒng)以及位置辨識(shí)方法
- 位置指示器、位置檢測(cè)裝置、位置檢測(cè)電路以及位置檢測(cè)方法
- 位置檢測(cè)裝置、位置檢測(cè)系統(tǒng)以及位置檢測(cè)方法
- 位置檢測(cè)裝置、位置檢測(cè)系統(tǒng)以及位置檢測(cè)方法
- 位置檢測(cè)裝置、位置檢測(cè)方法以及位置檢測(cè)系統(tǒng)
- 位置估計(jì)方法、位置估計(jì)裝置、以及位置估計(jì)系統(tǒng)
- 位置檢測(cè)方法、位置檢測(cè)裝置以及位置檢測(cè)系統(tǒng)





