[發明專利]實體分類方法、裝置、存儲介質、處理器及電子裝置在審
| 申請號: | 202111301031.7 | 申請日: | 2021-11-04 |
| 公開(公告)號: | CN114201603A | 公開(公告)日: | 2022-03-18 |
| 發明(設計)人: | 錢爽 | 申請(專利權)人: | 阿里巴巴(中國)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 北京博浩百睿知識產權代理有限責任公司 11134 | 代理人: | 謝湘寧;李靜茹 |
| 地址: | 311121 浙江省杭州市濱江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 實體 分類 方法 裝置 存儲 介質 處理器 電子 | ||
1.一種實體分類方法,其特征在于,包括:
獲取待預測實體;
采用所述待預測實體與多個關系類型構建多個實例,其中,所述多個實例中每個實例包括:文本部分,問題部分和答案部分;
對所述多個實例中每個實例進行分類處理,得到多個分類標簽;
基于所述多個分類標簽確定所述待預測實體的歸屬類別。
2.根據權利要求1所述的實體分類方法,其特征在于,采用所述待預測實體與所述多個關系類型構建所述多個實例包括:
獲取所述待預測實體的實體簡介和實體屬性;
獲取所述多個關系類型中每個關系類型的類型簡介和關系屬性;
采用所述實體簡介、所述實體屬性、所述類型簡介和所述關系屬性構建所述多個實例。
3.根據權利要求2所述的實體分類方法,其特征在于,采用所述實體簡介、所述實體屬性、所述類型簡介和所述關系屬性構建所述多個實例包括:
采用所述實體簡介和所述類型簡介構建所述文本部分;
采用所述實體屬性和所述關系屬性構建所述問題部分;
采用多個預設選項構建所述答案部分。
4.根據權利要求1所述的實體分類方法,其特征在于,對所述多個實例中每個實例進行分類處理,得到所述多個分類標簽包括:
利用閱讀理解模型對所述多個實例中每個實例進行分類處理,得到所述多個分類標簽,其中,所述閱讀理解模型使用數據集通過深度學習訓練得到,所述數據集由所述多個實例確定。
5.根據權利要求4所述的實體分類方法,其特征在于,所述實體分類方法還包括:
將所述多個實例劃分為第一部分實例和第二部分實例,其中,所述第一部分實例為所述多個實例中的正例,所述第二部分實例為所述多個實例中的負例;
基于所述第一部分實例與所述第二部分實例的類型相似程度進行不同比例的負例采樣處理,得到負例采樣結果,其中,類型相似程度與負例采樣比例呈正比;
采用所述第一部分實例與所述負例采樣結果中的部分采樣結果確定所述數據集;
利用所述數據集作為訓練數據,訓練得到閱讀理解模型。
6.根據權利要求5所述的實體分類方法,其特征在于,所述閱讀理解模型包括:輸入層、編碼層和輸出層,所述實體分類方法還包括:
在所述輸入層中,將所述數據集中的文本部分變換為文本序列,將所述數據集中的問題部分變換為問題序列,以及將所述文本序列和所述問題序列拼接為目標序列,其中,所述目標序列為所述編碼層的輸入序列;
在所述編碼層中,對所述目標序列進行編碼處理,輸出目標向量,其中,所述目標向量用于表示所述數據集中的文本部分與所述數據集中的問題部分之間的關聯性;
在所述輸出層中,所述目標向量通過全連接網絡輸出實體類型概率分布。
7.根據權利要求1所述的實體分類方法,其特征在于,基于所述多個分類標簽確定所述待預測實體的歸屬類別包括:
當所述多個分類標簽的取值不全為第一數值時,利用所述多個分類標簽中取值為第二數值的分類標簽確定所述待預測實體的歸屬類別;
當所述多個分類標簽的取值全為所述第一數值時,利用所述多個分類標簽中預測概率最大的分類標簽確定所述待預測實體的歸屬類別。
8.一種實體分類方法,其特征在于,包括:
接收來自于客戶端的待預測實體;
采用所述待預測實體與多個關系類型構建多個實例,對所述多個實例中每個實例進行分類處理以得到多個分類標簽,以及基于所述多個分類標簽確定所述待預測實體的歸屬類別,其中,所述多個實例中每個實例包括:文本部分,問題部分和答案部分;
將所述待預測實體的歸屬類別反饋至所述客戶端。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴(中國)有限公司,未經阿里巴巴(中國)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111301031.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種海綿城市用植物種植裝置
- 下一篇:一種用于汽車零部件的機電一體化加工裝置





