[發(fā)明專利]標簽描述信息的生成方法、裝置、電子設(shè)備及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202210194040.9 | 申請日: | 2022-03-01 |
| 公開(公告)號: | CN114610867A | 公開(公告)日: | 2022-06-10 |
| 發(fā)明(設(shè)計)人: | 鄧文超 | 申請(專利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34;G06F16/35;G06F16/36;G06F16/338;G06F40/30;G06F40/258 |
| 代理公司: | 廣州三環(huán)專利商標代理有限公司 44202 | 代理人: | 賈允 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 標簽 描述 信息 生成 方法 裝置 電子設(shè)備 存儲 介質(zhì) | ||
1.一種標簽描述信息的生成方法,其特征在于,包括:
獲取待描述標簽對應(yīng)的對象集合和所述對象集合中各對象關(guān)于所述待描述標簽的關(guān)聯(lián)程度值;所述對象集合包括多個不同的對象;所述各對象均通過所述待描述標簽進行表征;所述待描述標簽為預(yù)設(shè)字符形式;
基于所述關(guān)聯(lián)程度值,對所述對象集合中各對象進行排序,得到排序結(jié)果;
將所述排序結(jié)果中前預(yù)設(shè)數(shù)量個對象的標題進行拼接處理,得到拼接后的標題;
根據(jù)已訓(xùn)練的描述信息生成模型,對所述拼接后的標題進行語義理解,得到所述待描述標簽對應(yīng)的描述信息;所述描述信息包括所述待描述標簽的中文語義信息。
2.根據(jù)權(quán)利要求1所述的標簽描述信息的生成方法,其特征在于,所述描述信息生成模型的生成方式,包括:
獲取預(yù)訓(xùn)練好的語言模型;
獲取訓(xùn)練標簽對應(yīng)的訓(xùn)練對象集合和所述訓(xùn)練對象集合中各訓(xùn)練對象關(guān)于所述訓(xùn)練標簽的關(guān)聯(lián)程度值;所述訓(xùn)練對象集合包括多個不同的訓(xùn)練對象;所述訓(xùn)練對象集合中各訓(xùn)練對象均通過所述訓(xùn)練標簽進行表征;所述訓(xùn)練標簽為預(yù)設(shè)字符形式;
基于所述各訓(xùn)練對象關(guān)于所述訓(xùn)練標簽的關(guān)聯(lián)程度值,對所述各訓(xùn)練對象進行排序,得到排序結(jié)果;
將所述排序結(jié)果中前預(yù)設(shè)數(shù)量個訓(xùn)練對象的標題進行拼接處理,得到拼接后的訓(xùn)練標題;
根據(jù)獲取的所述訓(xùn)練標簽對應(yīng)的目標描述信息和所述訓(xùn)練標題,對所述預(yù)訓(xùn)練好的語言模型進行微調(diào)訓(xùn)練,在達到預(yù)設(shè)的微調(diào)結(jié)束條件時,得到所述描述信息生成模型。
3.根據(jù)權(quán)利要求2所述的標簽描述信息的生成方法,其特征在于,所述根據(jù)獲取的所述訓(xùn)練標簽對應(yīng)的目標描述信息和所述訓(xùn)練標題,對所述預(yù)訓(xùn)練好的語言模型進行微調(diào)訓(xùn)練,在達到預(yù)設(shè)的微調(diào)結(jié)束條件時,得到所述描述信息生成模型,包括:
將所述訓(xùn)練標題輸入所述預(yù)訓(xùn)練好的語言模型,得到預(yù)測描述信息;
根據(jù)所述目標描述信息和所述預(yù)測描述信息確定損失值;
基于所述損失值調(diào)整所述預(yù)訓(xùn)練好的語言模型的模型參數(shù)進行訓(xùn)練,在達到所述預(yù)設(shè)的微調(diào)結(jié)束條件時,得到所述描述信息生成模型。
4.根據(jù)權(quán)利要求1所述的標簽描述信息的生成方法,其特征在于,所述描述信息生成模型的生成方式,包括:
獲取預(yù)訓(xùn)練好的語言模型;
獲取訓(xùn)練標簽對應(yīng)的訓(xùn)練對象集合和所述對象集合和所述訓(xùn)練對象集合中各訓(xùn)練對象關(guān)于所述訓(xùn)練標簽的關(guān)聯(lián)程度值;所述訓(xùn)練對象集合包括多個不同的訓(xùn)練對象;所述訓(xùn)練對象集合中各對象均通過所述訓(xùn)練標簽進行表征;所述訓(xùn)練標簽為預(yù)設(shè)字符形式;
基于所述各訓(xùn)練對象關(guān)于所述訓(xùn)練標簽的關(guān)聯(lián)程度值,對所述各訓(xùn)練對象進行排序,得到排序結(jié)果;
將所述排序結(jié)果中前預(yù)設(shè)數(shù)量個訓(xùn)練對象的標題進行拼接處理,得到拼接后的訓(xùn)練標題;
根據(jù)預(yù)設(shè)特征提取算法對所述訓(xùn)練標題進行特征提取,得到所述訓(xùn)練標題的特征信息;所述特征信息包括分類信息和/或關(guān)鍵詞信息;
根據(jù)獲取的所述訓(xùn)練標簽對應(yīng)的目標描述信息、所述訓(xùn)練標題和所述特征信息,對所述預(yù)訓(xùn)練好的語言模型進行微調(diào)訓(xùn)練,在達到預(yù)設(shè)的微調(diào)結(jié)束條件時,得到所述描述信息生成模型。
5.根據(jù)權(quán)利要求2或4所述的標簽描述信息的生成方法,其特征在于,所述獲取預(yù)訓(xùn)練好的語言模型,包括:
獲取預(yù)訓(xùn)練文本語料和未訓(xùn)練的語言模型;
通過至少一種處理方式,對所述預(yù)訓(xùn)練文本語料進行處理;所述處理方式包括:隨機對所述預(yù)訓(xùn)練文本語料中部分連續(xù)或非連續(xù)文本進行替換處理、隨機刪除所述預(yù)訓(xùn)練文本語料中的部分文本、對所述預(yù)訓(xùn)練文本語料進行亂序處理;
將處理后的預(yù)訓(xùn)練文本語料作為所述未訓(xùn)練的語言模型的輸入,得到所述未訓(xùn)練的語言模型輸出的預(yù)測文本;
根據(jù)所述預(yù)測文本和原始預(yù)訓(xùn)練文本語料確定損失值,基于所述損失值對所述未訓(xùn)練的語言模型的模型參數(shù)進行訓(xùn)練,在達到預(yù)設(shè)的預(yù)訓(xùn)練結(jié)束條件時,得到所述預(yù)訓(xùn)練好的語言模型。
6.根據(jù)權(quán)利要求1所述的標簽描述信息的生成方法,其特征在于,所述將所述排序結(jié)果中前預(yù)設(shè)數(shù)量個對象的標題進行拼接處理,得到拼接后的標題,包括:
將所述排序結(jié)果中前預(yù)設(shè)數(shù)量個對象的標題以預(yù)設(shè)分隔符進行拼接,得到拼接后的標題。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210194040.9/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





