[發明專利]模型訓練方法、文本處理方法、裝置及電子設備在審
| 申請號: | 202010068919.X | 申請日: | 2020-01-21 |
| 公開(公告)號: | CN111324732A | 公開(公告)日: | 2020-06-23 |
| 發明(設計)人: | 吳雨霏 | 申請(專利權)人: | 中信百信銀行股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06K9/62 |
| 代理公司: | 北京市蘭臺律師事務所 11354 | 代理人: | 張峰 |
| 地址: | 100029 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 模型 訓練 方法 文本 處理 裝置 電子設備 | ||
本申請實施例提供了一種模型訓練方法、文本處理方法、裝置及電子設備。模型訓練方法包括:當接收到訓練請求時,獲取訓練文本集;基于訓練請求中是否攜帶有向量化方法的指定信息,確定目標向量化方法;基于目標向量化方法對訓練文本集進行向量化處理得到訓練向量集;基于訓練向量集對訓練請求中攜帶的任務標識信息對應的目標模型進行訓練。本申請提供的模型訓練方法,實現了在訓練過程中自動選擇向量化方法以及任務處理模型,能夠應對多種處理任務以及多種應用場景下任務處理模型的訓練過程,為支持多種處理任務以及多種應用場景的文本處理提供了基礎。
技術領域
本申請涉及數據處理技術領域,具體而言,本申請涉及一種模型訓練方法、文本處理方法、裝置及電子設備。
背景技術
目前,自然語言處理平臺主要提供以下三種實現方式:
第一種是將各種算法分別封裝為子模塊提供給算法工程師,算法工程師在使用時可以根據實際需要對算法子模塊進行排布,這種方式在實現過程中需要人工進行個性化開發,對用戶的要求較高,并且無法實現端對端交付。
第二種是針對某種文本處理任務處理過程中的算法進行封裝,形成端對端交付,如Facebook的fasttext,但是這種方式只能針對單一的文本處理任務,無法應對多種處理任務并存的情況。
第三種是針對某種應用場景所使用的算法進行封裝,但是這種方式支持單一的應用場景,無法應對多種應用場景并存的情況。
現有的自然語言處理平臺所提供的文本處理方式無法應對多種處理任務并存以及多種應用場景并存的情況,無法滿足實際的使用需求,亟需一種支持多種處理任務以及多種應用場景的文本處理處理方式。
發明內容
本申請的目的旨在至少能解決上述的技術缺陷之一。本申請所采用的技術方案如下:
第一方面,本申請實施例提供了一種模型訓練方法,該方法包括:
當接收到訓練請求時,獲取訓練文本集;
基于所述訓練請求中是否攜帶有向量化方法的指定信息,確定目標向量化方法;
基于所述目標向量化方法對所述訓練文本集進行向量化處理得到訓練向量集;
基于所述訓練向量集對所述訓練請求中攜帶的任務標識信息對應的目標模型進行訓練。
第二方面,本申請實施例提供了一種文本處理方法,該方法包括:
當接收到文本處理請求時,獲取待處理文本;
基于所述文本處理請求攜帶的任務ID,以及預設的關聯關系,確定所述待處理文本的目標向量化方法以及任務處理模型,所述關聯關系為任務ID與目標向量化方法以及任務處理模型的關聯關系;
基于所述目標向量化方法對所述待處理文本進行向量化處理得到待處理向量;
基于所述任務處理模型對所述待處理向量進行處理,所述任務處理模型基于本申請的第一方面提供的模型訓練方法得到。
第三方面,本申請實施例提供了一種模型訓練裝置,該模型訓練裝置包括:
訓練文本集獲取模塊,用于在接收到訓練請求時,獲取訓練文本集;
目標向量化方法確定模塊,用于基于所述訓練請求中是否攜帶有向量化方法的指定信息,確定目標向量化方法;
訓練向量集確定模塊,用于基于所述目標向量化方法對所述訓練文本集進行向量化處理得到訓練向量集;
模型訓練模塊,用于基于所述訓練向量集對所述訓練請求中攜帶的任務標識信息對應的目標模型進行訓練。
第三方面,本申請實施例提供了一種文本處理裝置,該文本處理裝置包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中信百信銀行股份有限公司,未經中信百信銀行股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010068919.X/2.html,轉載請聲明來源鉆瓜專利網。





