[發(fā)明專利]地理命名實(shí)體識(shí)別模型訓(xùn)練方法及地理命名實(shí)體識(shí)別方法在審
| 申請(qǐng)?zhí)枺?/td> | 202310625300.8 | 申請(qǐng)日: | 2023-05-30 |
| 公開(kāi)(公告)號(hào): | CN116562296A | 公開(kāi)(公告)日: | 2023-08-08 |
| 發(fā)明(設(shè)計(jì))人: | 徐流暢;夏天舒;張程錕;張嘉俊;姚俊偉 | 申請(qǐng)(專利權(quán))人: | 信雅達(dá)科技股份有限公司 |
| 主分類號(hào): | G06F40/295 | 分類號(hào): | G06F40/295;G06F40/151;G06F40/30;G06N3/0499;G06N3/045;G06N3/08 |
| 代理公司: | 杭州裕陽(yáng)聯(lián)合專利代理有限公司 33289 | 代理人: | 張解翠 |
| 地址: | 310051 浙江省杭州市*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 地理 命名 實(shí)體 識(shí)別 模型 訓(xùn)練 方法 | ||
本申請(qǐng)公開(kāi)了地理命名實(shí)體識(shí)別模型訓(xùn)練方法及地理命名實(shí)體識(shí)別方法,涉及信息抽取技術(shù)領(lǐng)域,地理命名實(shí)體識(shí)別模型訓(xùn)練方法包括:獲取第一網(wǎng)絡(luò)文本數(shù)據(jù),并根據(jù)第一網(wǎng)絡(luò)文本數(shù)據(jù)對(duì)初始地理命名實(shí)體語(yǔ)義模型進(jìn)行增量預(yù)訓(xùn)練,得到第一地理命名實(shí)體語(yǔ)義模型;對(duì)第一網(wǎng)絡(luò)文本數(shù)據(jù)進(jìn)行標(biāo)注,并根據(jù)標(biāo)注結(jié)果構(gòu)建地理命名實(shí)體識(shí)別數(shù)據(jù)集;根據(jù)第一地理命名實(shí)體語(yǔ)義模型組建初始地理命名實(shí)體識(shí)別模型,并利用地理命名實(shí)體識(shí)別數(shù)據(jù)集對(duì)初始地理命名實(shí)體識(shí)別模型進(jìn)行微調(diào),得到目標(biāo)地理命名實(shí)體識(shí)別模型。本方法使用深度學(xué)習(xí)遷移的方式,使得地理命名實(shí)體識(shí)別模型不用再單獨(dú)訓(xùn)練,而是在原來(lái)地理命名實(shí)體語(yǔ)義模型的基礎(chǔ)上進(jìn)行增量預(yù)訓(xùn)練,大大節(jié)省了時(shí)間。
技術(shù)領(lǐng)域
本申請(qǐng)涉及信息抽取技術(shù)領(lǐng)域,尤其涉及地理命名實(shí)體識(shí)別模型訓(xùn)練方法及地理命名實(shí)體識(shí)別方法。
背景技術(shù)
命名實(shí)體識(shí)別(Named?Entity?Recognition,NER)是一種在自然語(yǔ)言處理領(lǐng)域廣泛應(yīng)用的技術(shù),它旨在從文本中識(shí)別并提取出命名實(shí)體,并將其分類到預(yù)定義的實(shí)體類別中,其中,命名實(shí)體通常是指具有特定名稱或標(biāo)識(shí)符的實(shí)體,如人名、地名、組織機(jī)構(gòu)名、日期、時(shí)間、貨幣等。
泛在網(wǎng)絡(luò)文本數(shù)據(jù)是指從互聯(lián)網(wǎng)上收集的文本數(shù)據(jù),目前這種數(shù)據(jù)的命名實(shí)體識(shí)別方法通常有基于地理命名實(shí)體數(shù)據(jù)庫(kù)的地理命名實(shí)體識(shí)別方法、基于機(jī)器學(xué)習(xí)的地理命名實(shí)體識(shí)別方法以及基于深度神經(jīng)網(wǎng)絡(luò)的地理命名實(shí)體識(shí)別方法,但基于地理命名實(shí)體數(shù)據(jù)庫(kù)的地理命名實(shí)體識(shí)別方法的前提是有一個(gè)完備的地理命名實(shí)體數(shù)據(jù)庫(kù),且該方法會(huì)忽略一些未出現(xiàn)在地理命名實(shí)體數(shù)據(jù)庫(kù)中的地理命名實(shí)體信息;基于機(jī)器學(xué)習(xí)的地理命名實(shí)體識(shí)別方法則需要大量的標(biāo)注數(shù)據(jù),標(biāo)注數(shù)據(jù)的獲取和處理需要花費(fèi)大量的人力和時(shí)間,且此類方法對(duì)于特征提取的質(zhì)量非常敏感,如果提取的特征不足或者不合理,會(huì)影響任務(wù)的準(zhǔn)確率;基于深度神經(jīng)網(wǎng)絡(luò)的地理命名實(shí)體識(shí)別方法同樣需要大量標(biāo)記數(shù)據(jù)。
發(fā)明內(nèi)容
本申請(qǐng)?zhí)峁┑牡乩砻麑?shí)體識(shí)別模型訓(xùn)練方法及地理命名實(shí)體識(shí)別方法,旨在識(shí)別泛在社交媒體數(shù)據(jù)上的地理命名實(shí)體,并在識(shí)別過(guò)程中解決這類數(shù)據(jù)存在的多樣性、數(shù)據(jù)量大和噪聲性問(wèn)題。
為實(shí)現(xiàn)上述目的,本申請(qǐng)采用以下技術(shù)方案:
本申請(qǐng)的一種地理命名實(shí)體識(shí)別模型訓(xùn)練方法,包括以下步驟:
獲取第一網(wǎng)絡(luò)文本數(shù)據(jù),并根據(jù)所述第一網(wǎng)絡(luò)文本數(shù)據(jù)對(duì)初始地理命名實(shí)體語(yǔ)義模型進(jìn)行增量預(yù)訓(xùn)練,得到第一地理命名實(shí)體語(yǔ)義模型;
對(duì)所述第一網(wǎng)絡(luò)文本數(shù)據(jù)進(jìn)行標(biāo)注,并根據(jù)標(biāo)注結(jié)果構(gòu)建地理命名實(shí)體識(shí)別數(shù)據(jù)集;
根據(jù)所述第一地理命名實(shí)體語(yǔ)義模型組建初始地理命名實(shí)體識(shí)別模型,并利用所述地理命名實(shí)體識(shí)別數(shù)據(jù)集對(duì)所述初始地理命名實(shí)體識(shí)別模型進(jìn)行微調(diào),得到目標(biāo)地理命名實(shí)體識(shí)別模型。
作為優(yōu)選,所述初始地理命名實(shí)體語(yǔ)義模型包括基于多頭自注意力機(jī)制的語(yǔ)義特征提取模塊和混淆詞校正模塊,其中,所述基于多頭自注意力機(jī)制的語(yǔ)義特征提取模塊包括多頭自注意力層、殘差網(wǎng)絡(luò)和全連接前饋神經(jīng)網(wǎng)絡(luò),并以Leaky?ReLU為激活函數(shù),所述混淆詞校正模塊以BERT預(yù)訓(xùn)練語(yǔ)言模型中的掩碼語(yǔ)言模型為基礎(chǔ),設(shè)置基于混淆詞替換的全詞動(dòng)態(tài)掩碼策略。
作為優(yōu)選,所述殘差網(wǎng)絡(luò)由若干殘差單元組成,單個(gè)殘差單元表示為:
self-attentionl=self-attentionl-1+F(self-attentionl-1)
其中,self-attentionl和self-attentionl-1分別表示多頭自注意力第l層和第l-1層的輸出,F(xiàn)表示多頭自注意力的處理函數(shù)。
作為優(yōu)選,所述全連接前饋神經(jīng)網(wǎng)絡(luò)連接在所述多頭自注意層的輸出后,所述基于多頭自注意力機(jī)制的語(yǔ)義特征提取模塊還包括對(duì)每一層的輸出進(jìn)行層歸一化。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于信雅達(dá)科技股份有限公司,未經(jīng)信雅達(dá)科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310625300.8/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 基于地理信息數(shù)據(jù)的電子地圖及其導(dǎo)航方法
- 一種通過(guò)地圖顯示網(wǎng)頁(yè)中地理信息的方法和裝置
- 地理位置監(jiān)測(cè)方法及地理位置監(jiān)測(cè)設(shè)備
- 一種基于地理信息數(shù)據(jù)的煙田電子地圖及其導(dǎo)航方法
- 邏輯分段數(shù)據(jù)處理系統(tǒng)
- 移動(dòng)設(shè)備的被動(dòng)動(dòng)態(tài)地理圍欄
- 一種數(shù)據(jù)處理方法及裝置
- 地理信息動(dòng)態(tài)預(yù)警布控系統(tǒng)
- 地理邊界確定服務(wù)
- 地理圍欄分級(jí)方法、車輛調(diào)度方法以及服務(wù)器
- 具有多位字段的寄存器的重命名
- 命名實(shí)體識(shí)別方法及裝置
- 主命名節(jié)點(diǎn)設(shè)置方法及裝置
- 命名實(shí)體的識(shí)別方法、識(shí)別系統(tǒng)及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 數(shù)據(jù)處理方法、裝置及計(jì)算機(jī)終端
- 命名實(shí)體消歧方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文件默認(rèn)命名方法、裝置和電子設(shè)備
- 命名實(shí)體識(shí)別方法、裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)
- 一種集群命名空間管理方法、系統(tǒng)、電子設(shè)備及存儲(chǔ)介質(zhì)
- 命名實(shí)體歸一化處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 網(wǎng)絡(luò)實(shí)體監(jiān)控方法及裝置
- 一種實(shí)體鏈接方法及裝置
- 一種基于深度學(xué)習(xí)的實(shí)體鏈接方法
- 實(shí)體發(fā)現(xiàn)方法及裝置
- 一種數(shù)據(jù)處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種實(shí)體關(guān)系識(shí)別方法、裝置及設(shè)備
- 尾實(shí)體鏈接方法、裝置、服務(wù)器及存儲(chǔ)介質(zhì)
- 基于實(shí)體對(duì)齊的屬性融合方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種實(shí)體召回方法及相關(guān)裝置
- 實(shí)體表征模型的訓(xùn)練和表征方法、電子設(shè)備和存儲(chǔ)介質(zhì)
- 識(shí)別媒體、識(shí)別媒體的識(shí)別方法、識(shí)別對(duì)象物品以及識(shí)別裝置
- 一種探針卡識(shí)別裝置和方法
- 識(shí)別裝置、識(shí)別方法以及記錄介質(zhì)
- 識(shí)別裝置、識(shí)別系統(tǒng),識(shí)別方法以及存儲(chǔ)介質(zhì)
- 識(shí)別程序、識(shí)別方法以及識(shí)別裝置
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 識(shí)別裝置、識(shí)別方法以及識(shí)別程序
- 識(shí)別裝置、識(shí)別方法及識(shí)別程序





