[發(fā)明專(zhuān)利]一種實(shí)體識(shí)別模型的建立方法、系統(tǒng)、電子設(shè)備及介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 202110669805.5 | 申請(qǐng)日: | 2021-06-17 |
| 公開(kāi)(公告)號(hào): | CN113128234B | 公開(kāi)(公告)日: | 2021-11-02 |
| 發(fā)明(設(shè)計(jì))人: | 姚娟娟 | 申請(qǐng)(專(zhuān)利權(quán))人: | 明品云(北京)數(shù)據(jù)科技有限公司 |
| 主分類(lèi)號(hào): | G06F40/295 | 分類(lèi)號(hào): | G06F40/295;G06F40/284;G06F40/247;G06F16/33;G06F16/35 |
| 代理公司: | 上海漢之律師事務(wù)所 31378 | 代理人: | 馮華 |
| 地址: | 102400 北京市*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 實(shí)體 識(shí)別 模型 建立 方法 系統(tǒng) 電子設(shè)備 介質(zhì) | ||
1.一種實(shí)體識(shí)別模型的建立方法,其特征在于,所述方法包括:
獲取目標(biāo)領(lǐng)域的文本數(shù)據(jù),得到實(shí)體數(shù)據(jù)集,并將所述實(shí)體數(shù)據(jù)集劃分為待標(biāo)注數(shù)據(jù)集和待處理數(shù)據(jù)集;
對(duì)所述待處理數(shù)據(jù)集進(jìn)行分詞處理和詞性標(biāo)注,根據(jù)詞性和詞共現(xiàn)度對(duì)所述待處理數(shù)據(jù)集進(jìn)行同義詞替換,得到處理數(shù)據(jù)集;
根據(jù)所述待標(biāo)注數(shù)據(jù)集和所述處理數(shù)據(jù)集的詞義相似度確定所述處理數(shù)據(jù)集中的新詞數(shù)據(jù)集,對(duì)所述待標(biāo)注數(shù)據(jù)集和所述新詞數(shù)據(jù)集進(jìn)行標(biāo)注,得到標(biāo)注數(shù)據(jù)集;
基于所述標(biāo)注數(shù)據(jù)集采用信息抽取方法對(duì)所述待處理數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,得到預(yù)訓(xùn)練數(shù)據(jù)集;
采用所述預(yù)訓(xùn)練數(shù)據(jù)集訓(xùn)練初始實(shí)體識(shí)別模型,輸出目標(biāo)實(shí)體識(shí)別模型;
步驟根據(jù)詞性和詞共現(xiàn)度對(duì)所述待處理數(shù)據(jù)集進(jìn)行同義詞替換,得到處理數(shù)據(jù)集,具體包括:
對(duì)經(jīng)過(guò)分詞處理和詞性標(biāo)注的待處理數(shù)據(jù)集進(jìn)行去停用詞,得到待分類(lèi)數(shù)據(jù)集;
根據(jù)語(yǔ)義相似度對(duì)所述待分類(lèi)數(shù)據(jù)集進(jìn)行聚類(lèi)處理,得到若干個(gè)分類(lèi)數(shù)據(jù)集;
根據(jù)詞性和詞共現(xiàn)度對(duì)所述分類(lèi)數(shù)據(jù)集進(jìn)行同義詞替換,得到分類(lèi)處理集,合并所述分類(lèi)處理集生成處理數(shù)據(jù)集;
步驟根據(jù)詞性和詞共現(xiàn)度對(duì)所述分類(lèi)數(shù)據(jù)集進(jìn)行同義詞替換,得到分類(lèi)處理集,具體包括:
根據(jù)所述分類(lèi)數(shù)據(jù)集中詞所處的位置和預(yù)設(shè)位置權(quán)重確定詞的位置評(píng)價(jià)參數(shù);
獲取所述分類(lèi)數(shù)據(jù)集中同一詞性的詞,得到詞性數(shù)據(jù)集,獲取詞性數(shù)據(jù)集中位置評(píng)價(jià)參數(shù)相同的詞,根據(jù)所述位置評(píng)價(jià)參數(shù)相同的詞之間的上下文語(yǔ)義相似度確定詞共現(xiàn)度;
根據(jù)詞共現(xiàn)度對(duì)所述詞性數(shù)據(jù)集進(jìn)行同義詞替換,得到分類(lèi)處理集。
2.根據(jù)權(quán)利要求1所述的實(shí)體識(shí)別模型的建立方法,其特征在于,所述根據(jù)所述待標(biāo)注數(shù)據(jù)集和所述處理數(shù)據(jù)集的詞義相似度確定所述處理數(shù)據(jù)集中的新詞數(shù)據(jù)集,具體包括:
根據(jù)同義關(guān)系和反義關(guān)系確定所述待標(biāo)注數(shù)據(jù)集和所述處理數(shù)據(jù)集的詞義相似度;
若所述待標(biāo)注數(shù)據(jù)集和所述處理數(shù)據(jù)集的詞義相似度小于相似度閾值,則得到新詞數(shù)據(jù)集。
3.根據(jù)權(quán)利要求2所述的實(shí)體識(shí)別模型的建立方法,其特征在于,所述根據(jù)同義關(guān)系和反義關(guān)系確定所述待標(biāo)注數(shù)據(jù)集和所述處理數(shù)據(jù)集的詞義相似度,具體包括:
根據(jù)所述待標(biāo)注數(shù)據(jù)集與所述處理數(shù)據(jù)集的同義關(guān)系和預(yù)設(shè)同義關(guān)系權(quán)重確定同義評(píng)價(jià)參數(shù);
根據(jù)所述待標(biāo)注數(shù)據(jù)集與所述處理數(shù)據(jù)集的反義關(guān)系和預(yù)設(shè)反義關(guān)系權(quán)重確定反義評(píng)價(jià)參數(shù);
根據(jù)所述同義評(píng)價(jià)參數(shù)和所述反義評(píng)價(jià)參數(shù)確定所述待標(biāo)注數(shù)據(jù)集和所述處理數(shù)據(jù)集的詞義相似度。
4.根據(jù)權(quán)利要求1所述的實(shí)體識(shí)別模型的建立方法,其特征在于,所述對(duì)所述待標(biāo)注數(shù)據(jù)集和所述新詞數(shù)據(jù)集進(jìn)行標(biāo)注,得到標(biāo)注數(shù)據(jù)集,具體包括:
若所述待標(biāo)注數(shù)據(jù)集的數(shù)據(jù)量大于預(yù)設(shè)數(shù)據(jù)量閾值,將所述待標(biāo)注數(shù)據(jù)集劃分為待標(biāo)注子數(shù)據(jù)集和待訓(xùn)練子數(shù)據(jù)集;
根據(jù)所述待標(biāo)注子數(shù)據(jù)集和所述待訓(xùn)練子數(shù)據(jù)集的詞義相似度確定差異數(shù)據(jù)集;
對(duì)所述待標(biāo)注子數(shù)據(jù)集和所述差異數(shù)據(jù)集進(jìn)行語(yǔ)義標(biāo)注,得到語(yǔ)義標(biāo)注集;
基于所述語(yǔ)義標(biāo)注集采用信息抽取方法對(duì)所述待訓(xùn)練子數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,得到預(yù)訓(xùn)練子數(shù)據(jù)集;
標(biāo)注所述新詞數(shù)據(jù)集,合并所述預(yù)訓(xùn)練數(shù)據(jù)集和標(biāo)注過(guò)的新詞數(shù)據(jù)集,得到標(biāo)注數(shù)據(jù)集。
5.根據(jù)權(quán)利要求1所述的實(shí)體識(shí)別模型的建立方法,其特征在于,所述對(duì)所述待標(biāo)注數(shù)據(jù)集和所述新詞數(shù)據(jù)集進(jìn)行標(biāo)注,得到標(biāo)注數(shù)據(jù)集,還包括:
若所述待標(biāo)注數(shù)據(jù)集的數(shù)據(jù)量小于預(yù)設(shè)數(shù)據(jù)量閾值,對(duì)所述待標(biāo)注數(shù)據(jù)集和所述新詞數(shù)據(jù)集進(jìn)行分詞處理;
對(duì)所述經(jīng)過(guò)分詞處理后的待標(biāo)注數(shù)據(jù)集和新詞數(shù)據(jù)集進(jìn)行詞性標(biāo)注;
對(duì)所述經(jīng)過(guò)詞性標(biāo)注后的待標(biāo)注數(shù)據(jù)集和新詞數(shù)據(jù)集進(jìn)行語(yǔ)義標(biāo)注,得到標(biāo)注數(shù)據(jù)集。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于明品云(北京)數(shù)據(jù)科技有限公司,未經(jīng)明品云(北京)數(shù)據(jù)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110669805.5/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 網(wǎng)絡(luò)實(shí)體監(jiān)控方法及裝置
- 一種實(shí)體鏈接方法及裝置
- 一種基于深度學(xué)習(xí)的實(shí)體鏈接方法
- 實(shí)體發(fā)現(xiàn)方法及裝置
- 一種數(shù)據(jù)處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種實(shí)體關(guān)系識(shí)別方法、裝置及設(shè)備
- 尾實(shí)體鏈接方法、裝置、服務(wù)器及存儲(chǔ)介質(zhì)
- 基于實(shí)體對(duì)齊的屬性融合方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種實(shí)體召回方法及相關(guān)裝置
- 實(shí)體表征模型的訓(xùn)練和表征方法、電子設(shè)備和存儲(chǔ)介質(zhì)
- 識(shí)別媒體、識(shí)別媒體的識(shí)別方法、識(shí)別對(duì)象物品以及識(shí)別裝置
- 一種探針卡識(shí)別裝置和方法
- 識(shí)別裝置、識(shí)別方法以及記錄介質(zhì)
- 識(shí)別裝置、識(shí)別系統(tǒng),識(shí)別方法以及存儲(chǔ)介質(zhì)
- 識(shí)別程序、識(shí)別方法以及識(shí)別裝置
- 車(chē)載身份識(shí)別方法及系統(tǒng)
- 車(chē)載身份識(shí)別方法及系統(tǒng)
- 車(chē)載身份識(shí)別方法及系統(tǒng)
- 識(shí)別裝置、識(shí)別方法以及識(shí)別程序
- 識(shí)別裝置、識(shí)別方法及識(shí)別程序





