[發(fā)明專利]一種基于預(yù)訓(xùn)練模型和位置信息的文本結(jié)構(gòu)化方法在審
| 申請?zhí)枺?/td> | 202110454738.5 | 申請日: | 2021-04-26 |
| 公開(公告)號: | CN112989836A | 公開(公告)日: | 2021-06-18 |
| 發(fā)明(設(shè)計(jì))人: | 蔡婷婷;葉琪;阮彤;張維彥;鄭紅 | 申請(專利權(quán))人: | 華東理工大學(xué) |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F16/951 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 200237 *** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 訓(xùn)練 模型 位置 信息 文本 結(jié)構(gòu) 方法 | ||
本發(fā)明公開了一種基于預(yù)訓(xùn)練語言模型和位置信息的文本結(jié)構(gòu)化方法。本發(fā)明包括以下步驟:步驟1:從新聞網(wǎng)站爬取文本作為原語料交由人工標(biāo)注,并對其進(jìn)行預(yù)處理;步驟2:使用預(yù)處理后的文本訓(xùn)練BERT?CRF來識別姓名、性別、體貌特征、身高等通用實(shí)體;步驟3:將每條文本中的通用實(shí)體作為輸入,訓(xùn)練多標(biāo)簽分類模型BERT?Dense,輸出每個(gè)實(shí)體所屬的相關(guān)人群類型;步驟4:以相關(guān)人群姓名作為主體詞,根據(jù)文本的結(jié)構(gòu)特性,基于位置特征獲取該主體詞的屬性,得到最終的多主體文本結(jié)構(gòu)化。本發(fā)明適用于領(lǐng)域性的多主體文本結(jié)構(gòu)化任務(wù),通過分層結(jié)構(gòu)化和基于位置信息組成多元組的方式,有效提高對新聞文本結(jié)構(gòu)化的準(zhǔn)確率和效率。
技術(shù)領(lǐng)域
本發(fā)明屬于自然語言處理技術(shù)領(lǐng)域,尤指一種基于預(yù)訓(xùn)練模型和位置信息的文本結(jié)構(gòu)化方法。
背景技術(shù)
隨著信息科技的快速發(fā)展,生活中海量的新聞案件信息都以文本的形式存在。面對日益增長的大量文本數(shù)據(jù),目前業(yè)務(wù)人員面臨的問題是需要花費(fèi)很多時(shí)間在閱讀文本上。如今,自然語言處理技術(shù)也有了一定的發(fā)展成果,因此,自動化抽取非結(jié)構(gòu)化文本中的關(guān)鍵信息點(diǎn),并將其以結(jié)構(gòu)化的形式展示,不僅能夠使業(yè)務(wù)人員免于閱讀大量的文本,節(jié)省時(shí)間和人力,而且是后期的數(shù)據(jù)挖掘如串并相似案件等工作的良好基礎(chǔ)。
近年來,預(yù)訓(xùn)練語言模型被廣泛應(yīng)用于自然語言處理任務(wù)中。預(yù)訓(xùn)練模型通過自監(jiān)督的方式從大規(guī)模無監(jiān)督數(shù)據(jù)中學(xué)習(xí)單詞在特定上下文中的文本表征,再通過微調(diào)應(yīng)用于具體的任務(wù)中。預(yù)訓(xùn)練語言模型有諸多優(yōu)點(diǎn):1)是一種遷移學(xué)習(xí)的應(yīng)用,隱式地學(xué)習(xí)到了通用的語法語義知識;2)可以將從開放領(lǐng)域?qū)W到的知識遷移到下游任務(wù),以改善低資源任務(wù);3)在幾乎所有自然語言處理任務(wù)中都取得了目前最佳的成果;4)可擴(kuò)展性強(qiáng),在處理一個(gè)新任務(wù)時(shí),只需要利用該任務(wù)的標(biāo)注數(shù)據(jù)進(jìn)行微調(diào)即可。
在實(shí)際應(yīng)用場景中,以搶劫事件為例,大部分新聞案件文本中都包含多個(gè)相關(guān)人員的信息,如一段文本中可能存在多個(gè)目擊者姓名,目擊者性別,目擊者體貌特征,搶劫者姓名,搶劫者性別等。目前主流的文本結(jié)構(gòu)化方法將其形式化為命名實(shí)體識別任務(wù),將預(yù)訓(xùn)練語言模型BERT作為特征提取器,再通過條件隨機(jī)場(CRF)解碼來直接識別相關(guān)人員的各種屬性,然而這種方式會存在兩個(gè)問題。1)命名實(shí)體識別的標(biāo)簽類別過多,導(dǎo)致模型性能下降;2)無法形成如目擊者1姓名,目擊者1性別,目擊者1體貌特征,目擊者2姓名,目擊者2性別,目擊者2體貌特征,搶劫者1姓名,搶劫者1性別,搶劫者2姓名,搶劫者2性別等的多元組形式,因而無法實(shí)現(xiàn)多主體文本的結(jié)構(gòu)化。
綜上所述,本交叉領(lǐng)域亟需設(shè)計(jì)一種新的文本結(jié)構(gòu)化方法來解決上述問題。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明提供了一種基于預(yù)訓(xùn)練模型和位置信息的文本結(jié)構(gòu)化方法。第一,解決直接識別相關(guān)人員屬性導(dǎo)致命名實(shí)體識別標(biāo)簽類別數(shù)量過多的問題,本發(fā)明采用分層結(jié)構(gòu)化的方法,先使用BERT-CRF來識別文本中的姓名、性別、體貌特征、身高等通用實(shí)體,再對這些實(shí)體構(gòu)建多標(biāo)簽分類模型BERT-Dense,將其分別關(guān)聯(lián)到不同的相關(guān)人群類型,如目擊者、搶劫者、被搶者等。第二,解決無法形成以相關(guān)人員姓名為主體的多元組形式,本發(fā)明把相關(guān)人群姓名作為主體詞,根據(jù)文本的結(jié)構(gòu)特性,基于位置特征來獲取該主體詞的屬性。
本發(fā)明的技術(shù)路線實(shí)現(xiàn)形式為:首先,從新聞網(wǎng)站爬取搶劫事件文本作為原始語料交由人工標(biāo)注,并對其進(jìn)行預(yù)處理;其次,使用預(yù)處理后的文本訓(xùn)練BERT-CRF來識別姓名、性別、體貌特征、身高等通用實(shí)體;再次,將這些實(shí)體作為輸入,將目擊者、搶劫者、被搶者等相關(guān)人群類型作為類別標(biāo)簽,訓(xùn)練多標(biāo)簽分類模型BERT-Dense,旨在將通用實(shí)體分別關(guān)聯(lián)到不同的相關(guān)人群類型;最終,以相關(guān)人群姓名作為主體詞,根據(jù)文本的結(jié)構(gòu)特性,基于位置特征獲取該主體詞的屬性,得到最終的多主體文本結(jié)構(gòu)化。
本發(fā)明以搶劫新聞案件多主體文本結(jié)構(gòu)化為例,亦可用于其他事件的多主體文本結(jié)構(gòu)化。具體步驟為:
S1、從新聞網(wǎng)站爬取事件文本進(jìn)行人工標(biāo)注,得到文本結(jié)構(gòu)化的有監(jiān)督數(shù)據(jù)集A,并對該數(shù)據(jù)集進(jìn)行預(yù)處理作為后續(xù)模型的輸入。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華東理工大學(xué),未經(jīng)華東理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110454738.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





