[發明專利]基于橋接填充的復雜多表SQL生成方法和裝置有效
| 申請號: | 202110362073.5 | 申請日: | 2021-04-02 |
| 公開(公告)號: | CN112925794B | 公開(公告)日: | 2022-09-16 |
| 發明(設計)人: | 譚真;張嘯宇;趙翔;王俞涵;黃旭倩;廖勁智;肖衛東;唐九陽 | 申請(專利權)人: | 中國人民解放軍國防科技大學 |
| 主分類號: | G06F16/22 | 分類號: | G06F16/22;G06F16/242;G06F16/332;G06F16/33;G06F40/126;G06F40/186;G06F40/205;G06F40/30 |
| 代理公司: | 長沙國科天河知識產權代理有限公司 43225 | 代理人: | 徐志宏 |
| 地址: | 410073 湖*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 填充 復雜 sql 生成 方法 裝置 | ||
本申請涉及一種基于橋接填充的復雜多表SQL生成方法和裝置。采用兩層解碼架構,三個部分分別為語義編碼層、SQL模板生成層及SQL細節填充層。其中,SQL模板生成層為第一解碼層。SQL細節填充層為第二解碼層,另外,基于橋接填充的SQL生成模型僅在第一解碼層中使用了序列生成技術,SQL模板的長度較短,相比于單獨的序列生成模型,計算效率得到較大增強,計算資源消耗得到顯著降低。
技術領域
本申請涉及自然語言處理技術領域,特別是涉及一種基于橋接填充的復雜多表SQL生成方法和裝置。
背景技術
在SQL解析的實際應用場景中,用戶輸入的自然文本一般均是單表,對于單表,可以通過全匹配的方式生成SQL語句。
與單表SQL解析任務相比,多表SQL解析任務具有一個鮮明特點,即數據庫中可能包含多張數據表,數據表之間可能存在主外鍵關系,與單表SQL解析任務相比,多表SQL解析任務復雜度相對較高,主要體現在兩個方面,一是隨著數據表數量的增多,字段數量也隨之增多,可能會導致輸入長度超過預訓練模型所允許的最大長度;另一方面,多表SQL解析任務中SQL模式更為復雜,增加了多種組件(Having、Order by、Group by)、集合運算(Union、Except、Intersect)、嵌套SQL等內容。目前還未出現針對多表進行SQL語句自動生成的技術方案。
發明內容
基于此,有必要針對上述技術問題,提供一種基于橋接填充的復雜多表SQL生成方法、裝置、計算機設備和存儲介質。
一種基于橋接填充的復雜多表SQL生成,所述方法包括:
將自然語言表格樣本輸入多表SQL解析模型;所述多表SQL解析模型包括:語義編碼模塊、SQL模板生成模塊和SQL細節填充模塊;所述自然語言表格樣本包括:自然語言問題、數據表名稱和數據庫表字段;
根據預訓練的所述語義編碼模塊對所述自然語言表格樣本進行解析,得到字段序列編碼、自然語言問題序列編碼和表名字段序列編碼;其中,所述字段序列編碼、所述自然語言問題序列編碼和所述表名字段序列編碼構成整體編碼信息;所述字段序列編碼和所述表名字段序列編碼通過串聯符連接構成增強序列編碼;
將所述整體編碼信息輸入所述SQL模板生成模塊,生成所述SQL模板生成模塊中的SQL預定義模板對應的填充字段;所述SQL模板生成模塊由LSTM單元構成,所述SQL模板生成模塊中預先構建了多個類型的SQL預定義模板;所述SQL預定義模板通過預定義的SQL語句組件構成;
將所述填充字段輸入所述SQL細節填充模塊對所述SQL預定義模板進行填充,得到預測多表SQL語句;
根據所述預測多表SQL語句和預先設置的損失函數,對所述多表SQL解析模型進行訓練,得到訓練好的多表SQL解析模型;
將待解析自然語言表格輸入訓練好的多表SQL解析模型,得到對應的多表SQL語句。
在其中一個實施例中,還包括:獲取自然語言表格樣本的初始序列為:
[XLS],q1,q2,...,qL,[SEP],t11,t12,...,[CAT],c111,c112,...,[SEP],...,[SEP]
其中,[XLS]表示初始標記,[SEP]表示間隔符,[CAT]表示串聯符,q1,q2,...,qL是自然語言問題序列,ti1,ti2,...,[CAT],cij1,cij2,...是第i個數據表中的第j個字段的增強序列,L表示自然語言問題的長度;qt表示自然語言問題序列中的第t個token;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍國防科技大學,未經中國人民解放軍國防科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110362073.5/2.html,轉載請聲明來源鉆瓜專利網。





