[發明專利]語言模型預訓練、產品搜索方法、裝置以及計算機設備有效
| 申請號: | 202210635740.7 | 申請日: | 2022-06-07 |
| 公開(公告)號: | CN114723073B | 公開(公告)日: | 2023-09-05 |
| 發明(設計)人: | 劉克松;蔣建慧;呂非非 | 申請(專利權)人: | 阿里健康科技(杭州)有限公司 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00;G06N3/0499;G06N3/08;G06F40/151;G06F40/284;G06F40/295;G06F16/335 |
| 代理公司: | 北京布瑞知識產權代理有限公司 11505 | 代理人: | 周達 |
| 地址: | 310023 浙江省杭州市余杭*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語言 模型 訓練 產品 搜索 方法 裝置 以及 計算機 設備 | ||
1.一種語言模型預訓練方法,其特征在于,所述方法還包括:
提供用于訓練初始語言模型的語料集,其中,所述初始語言模型包括主轉化器和為所述主轉化器提供輸入文本序列的輔助轉化器;所述語料集包括非結構化的文本數據集和結構化的產品數據集;其中,所述非結構化的文本數據集是包括上下文語義關系的句子文本數據;所述結構化的產品數據集是從電商平臺數據庫中提取的上下文語義關系不明顯且具有特定數據結構的產品數據;其中,所述產品數據集包括藥品的標題、屬性名稱、屬性取值,構成藥品的三元組數據;所述三元組數據是文本數據;
基于所述語料集對所述初始語言模型進行訓練得到目標語言模型;其中,所述文本數據集用于訓練所述輔助轉化器和所述主轉化器,得到第一語言模型;所述產品數據集用于對所述主轉化器進行訓練,得到第二語言模型;其中,所述目標語言模型包括所述第一語言模型中的主轉化器或者所述第二語言模型中的主轉化器;
其中,所述第一語言模型的訓練方式,包括:
對所述文本數據集中的訓練文本數據進行邊界標記和遮蓋,得到遮蓋文本序列;
將所述遮蓋文本序列輸入至所述輔助轉化器中進行被遮蓋詞組的預測,得到損壞文本序列;其中,所述損壞文本序列為所述輔助轉化器為所述主轉化器提供的所述輸入文本序列;
將所述損壞文本序列輸入至所述主轉化器進行所述損壞文本序列中被替換詞組的識別,得到監督信號序列;其中,所述監督信號序列中元素用于表示所述損壞文本序列與所述訓練文本數據之間的詞組是否相同;
其中,所述第二語言模型的訓練方式,包括:
將所述產品數據集中的產品數據輸入至所述主轉化器中,對所述產品數據進行編碼得到標題的文本表征數據、屬性名稱的文本表征數據、屬性取值的文本表征數據和負采樣屬性取值的文本表征數據;其中,所述主轉化器連接有全連接網絡層;
根據所述全連接網絡層對所述標題的文本表征數據、所述屬性名稱的文本表征數據、所述屬性取值的文本表征數據和所述負采樣屬性取值的文本表征數據進行處理;其中,將所述標題的文本表征數據和所述屬性名稱的文本表征數據進行特征拼接,得到拼接表征數據;
確定所述拼接表征數據與被所述全連接網絡層處理后的負采樣屬性取值的文本表征數據之間的第一歐式距離,以及所述拼接表征數據與被所述全連接網絡層處理后的對應屬性取值的文本表征數據之間的第二歐式距離;
根據所述第一歐式距離和所述第二歐式距離確定所述第二語言模型的損失值;所述損失值用于調整所述第二語言模型的模型參數。
2.根據權利要求1所述的方法,其特征在于,所述方法還包括:
在所述第一語言模型和所述第二語言模型之間切換訓練,且所述第一語言模型中的主轉化器和所述第二語言模型中的主轉化器之間共享模型參數。
3.根據權利要求1所述的方法,其特征在于,所述對所述文本數據集中的訓練文本數據進行邊界標記和遮蓋,得到遮蓋文本序列,包括:
對所述文本數據集中的訓練文本數據進行中文分詞和命名實體識別,得到分詞結果和命名實體識別結果;
根據所述分詞結果和所述命名實體識別結果對所述訓練文本數據中的詞組進行邊界標記,得到標記文本序列;
對所述標記文本序列中的部分詞組進行遮蓋,得到所述遮蓋文本序列。
4.根據權利要求3所述的方法,其特征在于,所述對所述標記文本序列中的部分詞組進行遮蓋,得到遮蓋文本序列,包括:
對所述標記文本序列中的中文整詞和/或實體詞進行遮蓋,得到所述遮蓋文本序列。
5.根據權利要求1所述的方法,其特征在于,所述文本數據集包括通用領域文本和生物醫學文本。
6.根據權利要求1所述的方法,其特征在于,所述初始語言模型的損失值取決于所述第一語言模型的損失值和所述第二語言模型損失值;其中,所述第一語言模型的損失值取決于所述輔助轉化器的損失值和所述文本數據集對所述主轉化器進行訓練時的損失值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里健康科技(杭州)有限公司,未經阿里健康科技(杭州)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210635740.7/1.html,轉載請聲明來源鉆瓜專利網。





