[發(fā)明專利]一種模型訓練方法、文本相似度確定方法及裝置有效
| 申請?zhí)枺?/td> | 202110000674.1 | 申請日: | 2021-01-04 |
| 公開(公告)號: | CN112329430B | 公開(公告)日: | 2021-03-16 |
| 發(fā)明(設計)人: | 王炯亮;婁東方;林金曙;高峰;陳哲;許浩 | 申請(專利權)人: | 恒生電子股份有限公司 |
| 主分類號: | G06F40/194 | 分類號: | G06F40/194;G06K9/62 |
| 代理公司: | 北京集佳知識產(chǎn)權代理有限公司 11227 | 代理人: | 張柳 |
| 地址: | 310053 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 模型 訓練 方法 文本 相似 確定 裝置 | ||
本申請?zhí)峁┮环N模型訓練方法、文本相似度確定方法及裝置,獲取用于對文本相似度模型進行訓練的文本集合,文本集合包括第一文本組和第二文本組,第一文本組中的各個文本以第一文本標注形式標注,第二文本組中的各個文本以第二文本標注形式標注;采用目標文本標注形式對各個文本進行標注,以統(tǒng)一第一文本組和第二文本組中各個文本的標注形式;基于第一損失函數(shù)獲取第一文本組的損失值,基于第二損失函數(shù)獲取第二文本組的損失值;基于第一文本組的損失值和第二文本組的損失值,確定文本集合的損失值;利用文本集合的損失值,調(diào)整文本相似度模型的模型參數(shù),以訓練文本相似度模型,使得文本相似度模型的訓練方法具備更強的兼容性,并提高模型準確度。
技術領域
本申請屬于人工智能技術領域,尤其涉及一種模型訓練方法、文本相似度確定方法及裝置。
背景技術
隨著互聯(lián)網(wǎng)和人工智能技術的迅速發(fā)展,基于自然語言的相似搜索和問答成為各大網(wǎng)站、APP(Application,應用程序)、智能客服系統(tǒng)等的必備技能,在基于自然語言的相似搜索和問答過程中文本相似度模型是關鍵模型,文本相似度模型用于判別兩個文本之間是否相似以及兩個文本相似時的相似程度,但是目前文本多樣化表述使得文本相似度模型的模型準確度降低。
發(fā)明內(nèi)容
有鑒于此,本申請的目的在于提供一種模型訓練方法、文本相似度確定方法及裝置,用于使得文本相似度模型的訓練方法具備更強的兼容性,并提高模型準確度。技術方案如下:
一方面,本申請?zhí)峁┮环N模型訓練方法,所述方法包括:
獲取用于對文本相似度模型進行訓練的文本集合,所述文本集合包括第一文本組和第二文本組,所述第一文本組中的各個文本以第一文本標注形式標注,所述第二文本組中的各個文本以第二文本標注形式標注;
采用目標文本標注形式對各個文本進行標注,以統(tǒng)一所述第一文本組和所述第二文本組中各個文本的標注形式;
基于第一損失函數(shù)獲取所述第一文本組的損失值,基于第二損失函數(shù)獲取所述第二文本組的損失值;
基于所述第一文本組的損失值和所述第二文本組的損失值,確定所述文本集合的損失值;
利用所述文本集合的損失值,調(diào)整所述文本相似度模型的模型參數(shù),以對所述文本相似度模型進行訓練。
另一方面,本申請?zhí)峁┮环N文本相似度確定方法,所述方法包括:
獲取第一待處理文本和第二待處理文本;
調(diào)用文本相似度模型,所述文本相似度模型是通過文本集合的損失值調(diào)整模型參數(shù)得到,所述文本集合的損失值基于文本集合中的第一文本組的損失值和第二文本組的損失值得到,所述第一文本組中的各個文本以第一文本標注形式標注,所述第二文本組中的各個文本以第二文本標注形式標注,在得到所述第一文本組的損失值和所述第二文本組的損失值之前,采用目標文本標注形式對各個文本進行標注,以統(tǒng)一所述第一文本組和所述第二文本組中各個文本的標注形式;
獲得所述文本相似度模型輸出的指示所述第一待處理文本和所述第二待處理文本是否相似的處理結果。
再一方面,本申請?zhí)峁┮环N模型訓練裝置,所述裝置包括:
獲取單元,用于獲取用于對文本相似度模型進行訓練的文本集合,所述文本集合包括第一文本組和第二文本組,所述第一文本組中的各個文本以第一文本標注形式標注,所述第二文本組中的各個文本以第二文本標注形式標注;
標注單元,用于采用目標文本標注形式對各個文本進行標注,以統(tǒng)一所述第一文本組和所述第二文本組中各個文本的標注形式;
損失值確定單元,用于基于第一損失函數(shù)獲取所述第一文本組的損失值,基于第二損失函數(shù)獲取所述第二文本組的損失值;基于所述第一文本組的損失值和所述第二文本組的損失值,確定所述文本集合的損失值;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于恒生電子股份有限公司,未經(jīng)恒生電子股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110000674.1/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:檢測新冠病毒的方法及試劑盒
- 下一篇:半導體器件的封裝方法





