[發明專利]基于文本編輯技術的文本生成模型的訓練方法及裝置在審
| 申請號: | 202011139506.2 | 申請日: | 2020-10-22 |
| 公開(公告)號: | CN112257456A | 公開(公告)日: | 2021-01-22 |
| 發明(設計)人: | 孫超;王健宗;吳天博;程寧 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/289;G06F40/237;G06F16/33;G06K9/62 |
| 代理公司: | 深圳市精英專利事務所 44242 | 代理人: | 涂年影 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 文本編輯 技術 文本 生成 模型 訓練 方法 裝置 | ||
1.一種基于文本編輯技術的文本生成模型的訓練方法,其特征在于,包括以下步驟:
獲取預設的源文本集;
根據預置的文本編輯器對所述源文本集進行編輯以得到所述源文本集的目標文本集;
根據所述源文本集、所述目標文本集構建詞匯表;
根據所述詞匯表、所述源文本集中的每一源文本的目標文本對所述每一源文本進行處理以得到第一標簽序列;
將所述每一源文本輸入到待訓練的文本生成模型中以得到第二標簽序列;
根據所述第一標簽序列、所述第二標簽序列對所述文本生成模型進行配置參數的調整。
2.根據權利要求1所述的基于文本編輯技術的文本生成模型的訓練方法,其特征在于,所述根據所述源文本集、所述目標文本集構建所述詞匯表,包括:
根據所述每一源文本、所述每一源文本的目標文本構建所述每一源文本和所述每一源文本的目標文本的最長公共子序列;
根據所述每一源文本的目標文本、所述最長公共子序列構建所述詞匯表。
3.根據權利要求2所述的基于文本編輯技術的文本生成模型的訓練方法,其特征在于,所述根據所述每一源文本、所述每一源文本的目標文本構建所述每一源文本和所述每一源文本的目標文本的最長公共子序列,包括:
獲取所述每一源文本的子序列集合以及所述每一源文本的目標文本的子序列集合;
將所述每一源文本的子序列集合中的每一子序列分別與所述目標文本的子序列集合中的每一子序列進行匹配以得到所述每一源文本與所述每一源文本的目標文本的公共子序列集合并將所述公共子序列集合中的最長公共子序列作為所述最長公共子序列。
4.根據權利要求2所述的基于文本編輯技術的文本生成模型的訓練方法,其特征在于,所述根據所述每一源文本的目標文本、所述最長公共子序列構建所述詞匯表,包括:
將所述每一源文本的目標文本進行分詞處理以得到所述每一源文本的目標文本的詞語;
將所述每一源文本的目標文本的詞語與所述最長公共子序列進行匹配以從所述每一源文本的目標文本的詞語中獲取構成所述詞匯表的詞語。
5.根據權利要求2所述的基于文本編輯技術的文本生成模型的訓練方法,其特征在于,所述根據預設的詞匯表、所述每一源文本的目標文本對所述每一源文本進行處理以得到第一標簽序列,包括:
根據所述最長公共子序列對所述每一源文本進行標注以得到標注后的每一源文本;
將所述標注后的每一源文本進行分詞處理以得到所述標注后的每一源文本的字符集合;
將所述詞匯表中的詞語分別與所述字符集合中的字符進行匹配以得到詞語集合;
將所述詞語集合中的詞語進行拼接以得到所述第一標簽序列。
6.根據權利要求5所述的基于文本編輯技術的文本生成模型的訓練方法,其特征在于,所述將所述詞語集合中的詞語進行拼接以得到所述第一標簽序列,包括:
將所述詞語集合中的詞語以所述標注后的每一源文本中字符的排列順序進行拼接以得到所述第一標簽序列。
7.根據權利要求1所述的基于文本編輯技術的文本生成模型的訓練方法,其特征在于,所述根據所述第一標簽序列、所述第二標簽序列對所述文本生成模型進行配置參數的調整,包括:
獲取所述第二標簽序列與所述第一標簽序列的相似度;
若所述相似度低于預設的閾值,根據所述相似度對所述文本生成模型的配置參數進行調整。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011139506.2/1.html,轉載請聲明來源鉆瓜專利網。





