[發(fā)明專利]預訓練模型數(shù)據(jù)處理方法、電子設備及計算機存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202210478807.0 | 申請日: | 2022-05-05 |
| 公開(公告)號: | CN114579606B | 公開(公告)日: | 2022-07-29 |
| 發(fā)明(設計)人: | 惠彬原;黎檳華;李永彬;孫健 | 申請(專利權)人: | 阿里巴巴達摩院(杭州)科技有限公司 |
| 主分類號: | G06F16/242 | 分類號: | G06F16/242;G06F40/30 |
| 代理公司: | 北京合智同創(chuàng)知識產(chǎn)權代理有限公司 11545 | 代理人: | 李杰;蘭淑鐸 |
| 地址: | 310023 浙江省杭州市余杭*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 訓練 模型 數(shù)據(jù)處理 方法 電子設備 計算機 存儲 介質(zhì) | ||
本申請實施例提供了一種預訓練模型數(shù)據(jù)處理方法、電子設備及計算機存儲介質(zhì),其中,預訓練模型數(shù)據(jù)處理方法包括:獲取訓練樣本數(shù)據(jù),每個訓練樣本數(shù)據(jù)包括多輪表格問答訓練樣本,每輪表格問答訓練樣本包括自然語言查詢語句和對應的數(shù)據(jù)庫模式數(shù)據(jù);將訓練樣本數(shù)據(jù)輸入預訓練模型進行特征提取,獲得多輪表格問答訓練樣本對應的多個樣本特征;基于多個樣本特征和對應的正負例標簽,以及預設的對比學習損失函數(shù),對預訓練模型進行訓練,其中,所述正負例標簽根據(jù)所述多個樣本特征對應的多個數(shù)據(jù)庫查詢語句之間的相似度確定,所述正負例標簽用于表征當前樣本特征與所述多個樣本特征中的其它樣本特征是否語義相關。
技術領域
本申請實施例涉及表格問答技術領域,尤其涉及一種預訓練模型數(shù)據(jù)處理方法、電子設備及計算機存儲介質(zhì)。
背景技術
由于數(shù)據(jù)結(jié)構清晰、易于維護,表格/SQL數(shù)據(jù)庫成為各行各業(yè)應用最普遍的結(jié)構化數(shù)據(jù),也是智能對話系統(tǒng)和搜索引擎等的重要答案來源。傳統(tǒng)表格查詢需要專業(yè)技術人員撰寫查詢語句(如SQL語句)來完成,因門檻高,阻礙了表格查詢的大規(guī)模應用。表格問答技術(也稱為TableQA)通過將自然語言直接轉(zhuǎn)換為SQL查詢,允許用戶使用自然語言與表格數(shù)據(jù)庫直接交互,越來越被廣泛使用。
一個表格問答系統(tǒng)主要由三部分組成,包括自然語言理解部分、對話管理部分和自然語言生成部分。其中,自然語言理解部分主要執(zhí)行語義解析算法,將自然語言問句轉(zhuǎn)為對應可執(zhí)行的SQL語句;對話管理部分執(zhí)行多輪的狀態(tài)跟蹤和策略優(yōu)化;自然語言生成部分則根據(jù)解析出的SQL語句和SQL的執(zhí)行結(jié)果生成對應的回復。對于自然語言理解部分,目前多通過預訓練模型的訓練輸出對后續(xù)表格問答系統(tǒng)的自然語言理解部分進行功能支持。預訓練模型是一種遷移學習的應用,其通過自監(jiān)督學習從大規(guī)模數(shù)據(jù)中獲得與具體任務無關的模型參數(shù),并且,在支持一個新任務時,只需要利用該任務的標注數(shù)據(jù)對預訓練模型進行微調(diào)即可實現(xiàn)。
但是,因目前研究較多的是單輪的 TableQA 問題,因此目前的預訓練模型也基本都在解決單輪的情況。而在真實場景中,用戶經(jīng)常需要通過多輪詢問才能獲得期待的答案,所以多輪的 TableQA 問題越來越被關注,使得如何獲得滿足該場景下的預訓練模型成為亟待解決的問題。
發(fā)明內(nèi)容
有鑒于此,本申請實施例提供一種預訓練模型數(shù)據(jù)處理方案,以至少部分解決上述問題。
根據(jù)本申請實施例的第一方面,提供了一種預訓練模型數(shù)據(jù)處理方法,包括:獲取訓練樣本數(shù)據(jù),其中,每個訓練樣本數(shù)據(jù)包括多輪表格問答訓練樣本,每輪表格問答訓練樣本包括自然語言查詢語句和對應的數(shù)據(jù)庫模式數(shù)據(jù);將所述訓練樣本數(shù)據(jù)輸入預訓練模型進行特征提取,獲得多輪表格問答訓練樣本轉(zhuǎn)換對應的多個樣本特征;基于所述多個樣本特征分別對應的正負例標簽,以及預設的對比學習損失函數(shù),對所述預訓練模型進行訓練,其中,所述正負例標簽根據(jù)所述多個樣本特征對應的多個數(shù)據(jù)庫查詢語句之間的相似度確定,所述正負例標簽用于表征當前樣本特征與所述多個樣本特征中的其它樣本特征是否語義相關。
根據(jù)本申請實施例的第二方面,提供了一種電子設備,包括:處理器、存儲器、通信接口和通信總線,所述處理器、所述存儲器和所述通信接口通過所述通信總線完成相互間的通信;所述存儲器用于存放至少一可執(zhí)行指令,所述可執(zhí)行指令使所述處理器執(zhí)行如第一方面所述方法對應的操作。
根據(jù)本申請實施例的第三方面,提供了一種計算機存儲介質(zhì),其上存儲有計算機程序,該程序被處理器執(zhí)行時實現(xiàn)如第一方面所述的方法。
根據(jù)本申請實施例的第四方面,提供了一種計算機程序產(chǎn)品,包括計算機指令,所述計算機指令指示計算設備執(zhí)行如第一方面所述的方法對應的操作。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴達摩院(杭州)科技有限公司,未經(jīng)阿里巴巴達摩院(杭州)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210478807.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種智能化模板印刷機
- 下一篇:一種紙箱加工用的智能化水墨印刷機
- 數(shù)據(jù)處理設備,數(shù)據(jù)處理方法,和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理電路、數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法、數(shù)據(jù)處理控制方法
- 數(shù)據(jù)處理設備、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及計算機可讀取的記錄介質(zhì)
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序





