[發明專利]一種實體識別模型訓練方法、實體識別方法及裝置在審
| 申請號: | 202010531293.1 | 申請日: | 2020-06-11 |
| 公開(公告)號: | CN111859965A | 公開(公告)日: | 2020-10-30 |
| 發明(設計)人: | 羅星池;溫麗紅;馬璐;李超;劉亮 | 申請(專利權)人: | 北京三快在線科技有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06K9/62 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 任亞娟 |
| 地址: | 100083 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 實體 識別 模型 訓練 方法 裝置 | ||
本申請提供了一種實體識別模型訓練方法、實體識別方法及裝置,該方法包括:獲取訓練數據,訓練數據包括實體訓練數據和實體訓練數據對應的屬性標簽;將實體訓練數據輸入預先訓練好的特征向量提取模型中,得到訓練特征向量,訓練特征向量用于表征屬性標簽的相關特征;將訓練數據和訓練特征向量輸入第一預設模型中,對第一預設模型進行訓練,直至從訓練后的第一預設模型輸出屬性標簽時,將訓練后的第一預設模型確定為實體識別模型。可見,訓練特征向量可以起到對實體訓練數據的特征進行補充的作用,從而可以增加實體訓練數據的特征的維度,使得訓練所得的實體識別模型的識別準確度更高,有利于提高個性化命名的實體的識別準確率。
技術領域
本申請涉及信息識別技術領域,特別是涉及一種實體識別模型訓練方法、實體識別方法及裝置。
背景技術
隨著互聯網的普及和移動互聯網的崛起,網上購物及外賣業務的到來,用戶可以直接通過終端上的在線平臺搜索自己想要的服務。搜索系統通過深層次理解用戶搜索意圖和需求、提供相關供給的方式來服務用戶。
實體識別作為搜索系統的基礎功能模塊之一,在搜索業務中發揮著極其重要的作用,其目的是從文本或文本集中識別表示人名、地名、機構名等詞語,可以用于信息提取、信息檢索、機器翻譯等自然語言處理技術。
但是,發明人在研究中發現相關技術中至少存在如下技術問題:相關技術中實體識別準確率相對較低。
發明內容
為了解決相關技術中實體識別準確率相對較低的技術問題,本申請實施例提供了一種實體識別模型訓練方法、實體識別方法及裝置。
第一方面,本申請實施例提供了一種實體識別模型訓練方法,所述方法包括:
獲取訓練數據,所述訓練數據包括實體訓練數據和所述實體訓練數據對應的屬性標簽;
將所述實體訓練數據輸入預先訓練好的特征向量提取模型中,得到訓練特征向量,所述訓練特征向量用于表征所述屬性標簽的相關特征;
將所述訓練數據和所述訓練特征向量輸入第一預設模型中,對所述第一預設模型進行訓練,直至從訓練后的第一預設模型輸出所述屬性標簽時,將所述訓練后的第一預設模型確定為實體識別模型。
可選的,訓練所述特征向量提取模型的過程,包括:
獲取目標實體詞典,所述目標實體詞典包括目標實體數據和所述目標實體數據對應的目標屬性標簽;
將所述目標實體數據和所述目標屬性標簽輸入第二預設模型,對所述第二預設模型進行訓練,直至從訓練后的第二預設模型輸出目標特征向量時,將所述訓練后的第二預設模型確定為所述特征向量提取模型;
其中,所述目標特征向量用于表征所述目標屬性標簽的相關特征。
可選的,所述訓練數據還包括所述實體訓練數據對應的邊界標簽,所述方法還包括:
獲取所述實體訓練數據和所述邊界標簽;
將所述實體訓練數據和所述邊界標簽輸入第三預設模型中,對所述第三預設模型進行訓練,直至從訓練后的第三預設模型輸出所述邊界標簽時,將所述訓練后的第三預設模型確定為實體切分模型。
第二方面,本申請實施例提供了一種實體識別方法,所述方法包括:
獲取待識別數據,所述待識別數據包括待識別實體數據;
將所述待識別實體數據輸入預先訓練好的特征向量提取模型中,得到所述待識別實體數據對應的特征向量,所述特征向量用于表征所述待識別實體數據對應的屬性標簽的相關特征;
將所述待識別實體數據和所述待識別實體數據對應的特征向量輸入第一方面所述的實體識別模型,得到所述待識別實體數據對應的屬性標簽。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京三快在線科技有限公司,未經北京三快在線科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010531293.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種物聯網用機房的降溫裝置
- 下一篇:一種排隊次序的分配方法和系統





