[發(fā)明專利]命名實體的識別方法及裝置在審
| 申請?zhí)枺?/td> | 202010184831.4 | 申請日: | 2020-03-17 |
| 公開(公告)號: | CN113408283A | 公開(公告)日: | 2021-09-17 |
| 發(fā)明(設(shè)計)人: | 譚傳奇;陳漠沙;仇偉;黃非 | 申請(專利權(quán))人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/30;G06K9/62 |
| 代理公司: | 北京鼎佳達知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11348 | 代理人: | 任媛;劉鐵生 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 命名 實體 識別 方法 裝置 | ||
1.一種命名實體的識別方法,其特征在于,所述方法包括:
通過將待識別命名實體與實體知識庫中的經(jīng)驗命名實體進行名稱匹配,獲得所述待識別命名實體與所述經(jīng)驗命名實體的相似度,并基于所述相似度獲取N個候選經(jīng)驗命名實體;所述經(jīng)驗命名實體包括從歷史文本中獲取到的歸類于標準命名實體的命名實體;N為正整數(shù);
獲取候選經(jīng)驗命名實體的特定特征;所述特定特征包括所述候選經(jīng)驗命名實體與所述待識別命名實體的相似度和所述候選經(jīng)驗命名實體與其他命名實體的預設(shè)關(guān)聯(lián)性特征;
基于所述特定特征,重新計算所述候選經(jīng)驗命名實體與所述待識別命名實體的相似度,獲得與所述待識別命名實體相似度滿足預設(shè)條件的候選經(jīng)驗命名實體,并將所述待識別命名實體歸類于所述滿足預設(shè)條件的候選經(jīng)驗命名實體對應(yīng)的標準命名實體。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述預設(shè)關(guān)聯(lián)性特征包括以下至少一項或幾項的組合:
所述候選經(jīng)驗命名實體所對應(yīng)的標準命名實體的名稱與所述待識別命名實體的名稱是否完全相同;
所述候選經(jīng)驗命名實體對應(yīng)的標準命名實體的名稱,在對應(yīng)的經(jīng)驗命名實體中出現(xiàn)的次數(shù)比例;
所述候選經(jīng)驗命名實體的語義類型與所述待識別命名實體的語義類型的相似度。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,如果所述預設(shè)關(guān)聯(lián)性特征包括所述候選經(jīng)驗命名實體對應(yīng)的標準命名實體的名稱,在對應(yīng)的經(jīng)驗命名實體中出現(xiàn)的次數(shù)比例,則獲取候選經(jīng)驗命名實體的特定特征包括:
從所述實體知識庫中查找所述候選經(jīng)驗命名實體對應(yīng)的標準命名實體的名稱,在對應(yīng)的經(jīng)驗命名實體中出現(xiàn)的次數(shù)比例;
或者,獲取所述候選經(jīng)驗命名實體對應(yīng)的標準命名實體的名稱,并統(tǒng)計獲取的標準命名實體對應(yīng)的經(jīng)驗命名實體的個數(shù),以及與所述獲取的標準命名實體的名稱相同的經(jīng)驗命名實體的個數(shù),并基于統(tǒng)計出的個數(shù),計算所述獲取的標準命名實體的名稱,在對應(yīng)的經(jīng)驗命名實體中出現(xiàn)的次數(shù)比例。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,如果所述預設(shè)關(guān)聯(lián)性特征包括所述候選經(jīng)驗命名實體的語義類型與所述待識別命名實體的語義類型的相似度,則獲取候選經(jīng)驗命名實體的特定特征包括:
獲取記錄有所述待識別命名實體的待識別文本;
結(jié)合所述待識別文本,確定所述待識別命名實體的語義類型;
從所述實體知識庫中獲取所述候選經(jīng)驗命名實體的語義類型;
計算所述候選經(jīng)驗命名實體的語義類型與所述待識別命名實體的語義類型的相似度。
5.根據(jù)權(quán)利要求1-4所中任一項述的方法,其特征在于,重新計算所述候選經(jīng)驗命名實體與所述待識別命名實體的相似度包括:
為所述特定特征分配預設(shè)的權(quán)重;
基于分配的權(quán)重進行加權(quán)計算,獲得重新計算的所述候選經(jīng)驗命名實體與所述待識別命名實體的相似度。
6.根據(jù)權(quán)利要求1-4所中任一項所述的方法,其特征在于,重新計算所述候選經(jīng)驗命名實體與所述待識別命名實體的相似度包括:
將所述特定特征輸入到預設(shè)識別模型中,重新計算的所述候選經(jīng)驗命名實體與所述待識別命名實體的相似度。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述方法還包括:
獲取基于歷史文本中命名實體與所述實體知識庫中經(jīng)驗命名實體的相似度確定的N名候選經(jīng)驗命名實體以及所述候選經(jīng)驗命名實體的特定特征;
對添加標簽后的候選經(jīng)驗命名實體的特定特征進行模型訓練,獲得所述預設(shè)識別模型;所述標簽用于指示所述歷史文本中命名實體所歸屬的標準命名實體。
8.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述方法還包括:
根據(jù)所述待識別命名實體與相對應(yīng)的標準命名實體,對所述預設(shè)識別模型進行更新。
9.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述預設(shè)識別模型包括線性回歸模型;
所述線性回歸模型的優(yōu)化目標是最小化‖Xw-Y‖;
其中,X是特定特征,Y是0或1,w是特定特征的權(quán)重。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于阿里巴巴集團控股有限公司,未經(jīng)阿里巴巴集團控股有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010184831.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:電子設(shè)備的裝配工裝
- 下一篇:一種波分復用器和硅光集成芯片





