[發(fā)明專利]基于橋接填充的復雜多表SQL生成方法和裝置有效
| 申請?zhí)枺?/td> | 202110362073.5 | 申請日: | 2021-04-02 |
| 公開(公告)號: | CN112925794B | 公開(公告)日: | 2022-09-16 |
| 發(fā)明(設計)人: | 譚真;張嘯宇;趙翔;王俞涵;黃旭倩;廖勁智;肖衛(wèi)東;唐九陽 | 申請(專利權)人: | 中國人民解放軍國防科技大學 |
| 主分類號: | G06F16/22 | 分類號: | G06F16/22;G06F16/242;G06F16/332;G06F16/33;G06F40/126;G06F40/186;G06F40/205;G06F40/30 |
| 代理公司: | 長沙國科天河知識產(chǎn)權代理有限公司 43225 | 代理人: | 徐志宏 |
| 地址: | 410073 湖*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 填充 復雜 sql 生成 方法 裝置 | ||
1.一種基于橋接填充的復雜多表SQL生成方法,其特征在于,所述方法包括:
將自然語言表格樣本輸入多表SQL解析模型;所述多表SQL解析模型包括:語義編碼模塊、SQL模板生成模塊和SQL細節(jié)填充模塊;所述自然語言表格樣本包括:自然語言問題、數(shù)據(jù)表名稱和數(shù)據(jù)庫表字段;
根據(jù)預訓練的所述語義編碼模塊對所述自然語言表格樣本進行解析,得到字段序列編碼、自然語言問題序列編碼和表名字段序列編碼;其中,所述字段序列編碼、所述自然語言問題序列編碼和所述表名字段序列編碼構成整體編碼信息;所述字段序列編碼和所述表名字段序列編碼通過串聯(lián)符連接構成增強序列編碼;
將所述整體編碼信息輸入所述SQL模板生成模塊,生成所述SQL模板生成模塊中的SQL預定義模板對應的填充字段;所述SQL模板生成模塊由LSTM單元構成,所述SQL模板生成模塊中預先構建了多個類型的SQL預定義模板;所述SQL預定義模板通過預定義的SQL語句組件構成;
將所述填充字段輸入所述SQL細節(jié)填充模塊對所述SQL預定義模板進行填充,得到預測多表SQL語句;
根據(jù)所述預測多表SQL語句和預先設置的損失函數(shù),對所述多表SQL解析模型進行訓練,得到訓練好的多表SQL解析模型;
將待解析自然語言表格輸入訓練好的多表SQL解析模型,得到對應的多表SQL語句。
2.根據(jù)權利要求1所述的方法,其特征在于,根據(jù)預訓練的所述語義編碼模塊對所述自然語言表格樣本進行解析,得到字段序列編碼、自然語言問題序列編碼和表名字段序列編碼,包括:
獲取自然語言表格樣本的初始序列為:
[XLS],q1,q2,...,qL,[SEP],t11,t12,...,[CAT],c111,c112,...,[SEP],...,[SEP]
其中,[XLS]表示初始標記,[SEP]表示間隔符,[CAT]表示串聯(lián)符,q1,q2,...,qL是自然語言問題序列,ti1,ti2,...,[CAT],cij1,cij2,...是第i個數(shù)據(jù)表中的第j個字段的增強序列,L表示自然語言問題的長度;qt表示自然語言問題序列中的第t個token;
根據(jù)預訓練的所述語義編碼模塊對所述自然語言表格樣本進行解析,得到字段序列編碼、自然語言問題序列編碼和表名字段序列編碼為:
h[XLS],hq1,hq2,...,hqL,h[SEP],ht11,ht12,...,h[CAT],hc111,hc112,...,h[SEP],...,h[SEP]
其中,h[XLS]表示整體編碼信息,h[SEP]表示[SEP]的編碼,h[CAT]表示[CAT]的編碼,hqt表示qt的編碼,hti1,hti2,...,h[CAT],hcij1,hcij2,...表示ti1,ti2,...,[CAT],cij1,cij2,...的編碼。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍國防科技大學,未經(jīng)中國人民解放軍國防科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110362073.5/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。





