[發(fā)明專利]一種基于自監(jiān)督學(xué)習(xí)的命名實體識別方法在審
| 申請?zhí)枺?/td> | 202111539122.4 | 申請日: | 2021-12-15 |
| 公開(公告)號: | CN114239584A | 公開(公告)日: | 2022-03-25 |
| 發(fā)明(設(shè)計)人: | 周仁杰;胡強(qiáng);萬健;張紀(jì)林;殷昱煜;蔣從鋒 | 申請(專利權(quán))人: | 杭州電子科技大學(xué) |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F16/35;G06F16/36;G06N3/04;G06N3/08 |
| 代理公司: | 杭州君度專利代理事務(wù)所(特殊普通合伙) 33240 | 代理人: | 朱亞冠 |
| 地址: | 310018 浙*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 監(jiān)督 學(xué)習(xí) 命名 實體 識別 方法 | ||
本發(fā)明公開了一種基于自監(jiān)督學(xué)習(xí)的命名實體識別方法,該方法包括:對數(shù)據(jù)集進(jìn)行預(yù)處理,并利用處理好的數(shù)據(jù)集構(gòu)建正例句子對和負(fù)例句子對,利用embedding編碼器分別對正例句子對和負(fù)例句子對中的句子進(jìn)行編碼;在基于自監(jiān)督學(xué)習(xí)的命名實體識別模型中根據(jù)不同的實體特征以及相似度矩陣學(xué)習(xí)到實體在不同語境中的不同釋義,充分根據(jù)正例句子對以及負(fù)例句子對的相似度學(xué)習(xí)其特征向量,滿足不同語料庫的語種上的差異。本發(fā)明提高了命名實體識別的準(zhǔn)確率,并通過知識圖譜解決輸出結(jié)果中因單詞縮寫引起的實體類型識別錯誤的問題,從而可以更準(zhǔn)確地預(yù)測實體以及實體類型,使得具有多義性單詞的詞嵌入向量能更好的表示該詞在當(dāng)前語境中的釋義。
技術(shù)領(lǐng)域
本發(fā)明涉及一種命名實體識別方法,更具體涉及一種基于自監(jiān)督學(xué)習(xí)的命名實體識別方法。
背景技術(shù)
大數(shù)據(jù)時代來臨,對于命名實體識別的研究逐漸成為認(rèn)知科學(xué),信息科學(xué)和智能科學(xué)的交叉學(xué)科和國際新興的前沿領(lǐng)域之一。近年來,西方發(fā)達(dá)國家對命名實體識別的重視程度與日俱增,開源信息抽取成為各國制定國防政策、戰(zhàn)略決策和指揮作戰(zhàn)的重要依據(jù)之一。命名實體識別在學(xué)術(shù)界也迅速成為信息學(xué)領(lǐng)域的國際前沿?zé)狳c(diǎn)之一。
現(xiàn)存的命名實體識別方法大多根據(jù)文本抽取實體及實體類型。命名實體識別的主要任務(wù)是識別出文本中人名,地名等專有名詞和有意義的時間、日期等數(shù)量短語并加以歸類。命名實體識別主要有三種方法:基于規(guī)則的方法,基于統(tǒng)計學(xué)的方法和基于監(jiān)督學(xué)習(xí)的方法。
基于規(guī)則的方法主要通過預(yù)先構(gòu)建一些特殊的規(guī)則,通過文本規(guī)則來抽取文本中的實體。基于規(guī)則的方法在某些特定領(lǐng)域上擁有較高的準(zhǔn)確度,但也正因為基于規(guī)則的方法只在某些特定的領(lǐng)域上擁有較高的準(zhǔn)確度,造成了很大的局限性,例如跨領(lǐng)域的可移植性很差;基于統(tǒng)計學(xué)的方法主要對文本信息進(jìn)行統(tǒng)計,從文本語料庫中挖掘出單詞特征。基于統(tǒng)計學(xué)的方法對于語料庫的要求較高,而目前適用于大型命名實體識別任務(wù)評估的通用語料庫較少,這也在一定程度上限制了該方法的發(fā)展;基于監(jiān)督學(xué)習(xí)的方法主要從訓(xùn)練數(shù)據(jù)中通過訓(xùn)練得到分類器,并將分類器應(yīng)用到新的實體識別當(dāng)中,基于監(jiān)督學(xué)習(xí)的方法在一定程度上解決了基于規(guī)則方法的在特定領(lǐng)域上的局限性,也在一定程度上解決了對通用語料庫要求高的問題,然而該方法在詞嵌入階段沒有很好的學(xué)習(xí)到多義性單詞在當(dāng)前語境下的表達(dá)。
本發(fā)明利用自監(jiān)督學(xué)習(xí)對多義性單詞進(jìn)一步學(xué)習(xí),提出了基于自監(jiān)督學(xué)習(xí)的命名實體識別方法,構(gòu)建了完整的命名實體識別模型。
發(fā)明內(nèi)容
本發(fā)明的一個目的是針對現(xiàn)有命名實體識別技術(shù)在詞嵌入階段沒有很好的學(xué)習(xí)到多義性單詞在當(dāng)前語境中的釋義的問題,提供一種基于自監(jiān)督學(xué)習(xí)的命名實體識別方法,基于任意語料庫,利用對比子監(jiān)督學(xué)習(xí)模型使得具有多義性單詞的詞嵌入能更好的表示該詞在當(dāng)前語境中的釋義,以提高命名實體的識別度。
本發(fā)明所采用的技術(shù)方案如下:
步驟1:對數(shù)據(jù)集進(jìn)行預(yù)處理;
1-1將數(shù)據(jù)集中已標(biāo)注好實體類型的單詞連詞成句;
1-2將步驟1-1的句子si采用任意語種翻譯成句子ai,然后再將句子ai用與si相同語種翻譯成正例句子
步驟2:將步驟1中處理后的句子構(gòu)建正負(fù)例句子對集合,其中正例句子對集合為集合組成,負(fù)例句子對集合為集合組成,負(fù)例句子對由原始句子和語料庫中其余句子翻譯后的句子組成;
步驟3:使用embedding編碼器分別對正例句子對和負(fù)例句子對中的句子進(jìn)行embedding編碼;
步驟4:將embedding編碼后的詞嵌入向量輸入至深度神經(jīng)網(wǎng)絡(luò)層DNN;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州電子科技大學(xué),未經(jīng)杭州電子科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111539122.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 在即時通信中提供即時監(jiān)督功能的方法及系統(tǒng)
- 一種監(jiān)督事件的生成裝置
- 一種資產(chǎn)托管監(jiān)督任務(wù)的處理方法及裝置
- 一種監(jiān)督方法及裝置
- 基于自監(jiān)督學(xué)習(xí)的標(biāo)簽比例學(xué)習(xí)模型的訓(xùn)練方法和設(shè)備
- 一種衛(wèi)生監(jiān)督對象尋址方法、電子設(shè)備及存儲介質(zhì)
- 一種機(jī)器人表情調(diào)用方法和家用機(jī)器人
- 計算機(jī)視覺訓(xùn)練系統(tǒng)和用于訓(xùn)練計算機(jī)視覺系統(tǒng)的方法
- 一種基于廠區(qū)智能管理系統(tǒng)的工廠設(shè)備監(jiān)督系統(tǒng)
- 信息化綜合監(jiān)督系統(tǒng)及方法
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





