[發明專利]結構化查詢語句生成方法、裝置、電子設備及介質在審
| 申請號: | 202010140610.7 | 申請日: | 2020-03-03 |
| 公開(公告)號: | CN111459967A | 公開(公告)日: | 2020-07-28 |
| 發明(設計)人: | 趙亮 | 申請(專利權)人: | 深圳壹賬通智能科技有限公司 |
| 主分類號: | G06F16/242 | 分類號: | G06F16/242;G06F16/2452;G06F40/289 |
| 代理公司: | 深圳市賽恩倍吉知識產權代理有限公司 44334 | 代理人: | 劉麗華;孫芬 |
| 地址: | 518052 廣東省深圳市前海深港合作區前*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 結構 查詢 語句 生成 方法 裝置 電子設備 介質 | ||
本發明提供一種結構化查詢語句生成方法、裝置、電子設備及介質。所述結構化查詢語句生成方法能夠當接收到查詢請求時,從所述查詢請求中提取語句,對所述語句進行分詞處理,得到分詞,根據所述分詞及配置的字典,生成目標列表,所述字典表征分詞與分詞類型的對應關系,所述目標列表表征目標分詞與目標分詞類型的對應關系,將所述目標列表中的目標分詞識別為標簽值,并根據所述標簽值及預先配置的語法樹框架生成目標語法樹,所述語法樹框架表征標簽,所述目標語法樹表征所述標簽與標簽值的對應關系,基于所述目標語法樹,獲取與所述標簽對應的結構化查詢語句模板,將所述標簽值錄入所述結構化查詢語句模板中,得到所述語句對應的結構化查詢語句。
技術領域
本發明涉及數據庫技術領域,尤其涉及一種結構化查詢語句生成方法、裝置、電子設備及介質。
背景技術
為了便于數據的查詢,數據一般以數據表的形式存儲于數據庫中,對于不具備結構化查詢語言基礎的人來說,無法組織結構化查詢語句,進而無法在數據庫中查詢到數據結果,致使無法快速得到數據結果,因此,將自然語句轉化為SQL語句的方法應運而生。
然而,在現有的SQL語句轉換方法中,主要分為seq2seq模型的方法以及基于規則的方法。在seq2seq模型的方法中,需要大量的訓練樣本,然而這類訓練樣本不僅不易獲取,而且獲取效率低,導致在訓練樣本上花費較多的人力成本,此外,當生成的結構化查詢語句不準確時,seq2seq模型無法針對相應的錯誤進行修復,使得生成準確率較低;而在基于規則的方法中,無法覆蓋到所有用戶的句式習慣,因此,要求用戶必須按照一定的規則模板輸入語句,不利于用戶的體驗,此外,基于規則的召回率低。
發明內容
鑒于以上內容,有必要提供一種結構化查詢語句生成方法、裝置、電子設備及介質,無需依據訓練樣本進行訓練,也無需規定固定的模板,就能夠準確將用戶輸入的語句轉換成結構化查詢語句。
一種結構化查詢語句生成方法,所述方法包括:
當接收到查詢請求時,從所述查詢請求中提取語句;
對所述語句進行分詞處理,得到分詞;
根據所述分詞及配置的字典,生成目標列表,所述字典表征分詞與分詞類型的對應關系,所述目標列表表征目標分詞與目標分詞類型的對應關系;
將所述目標列表中的目標分詞識別為標簽值,并將所述標簽值錄入預先配置的語法樹框架中,生成目標語法樹,所述語法樹框架表征標簽,所述目標語法樹表征所述標簽與標簽值的對應關系;
基于所述目標語法樹,獲取與所述標簽對應的結構化查詢語句模板;
將所述標簽值錄入所述結構化查詢語句模板中,得到所述語句對應的結構化查詢語句。
根據本發明優選實施例,所述對所述語句進行分詞處理,得到分詞包括:
根據預設的自定義詞典對所述語句進行切分,得到切分位置;
根據所述切分位置,構建有向無環圖;
通過動態規劃算法計算所述有向無環圖中的最大概率路徑,得到目標路徑;
根據所述目標路徑確定所述分詞。
根據本發明優選實施例,所述根據所述分詞及配置的字典,生成目標列表包括:
獲取當前列表;
當從所述字典中確定分詞為枚舉值字段名、連續型字段名、意圖詞、方法詞中的任意一種類型時,將該分詞錄入至所述當前列表中,得到所述目標列表;或者
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳壹賬通智能科技有限公司,未經深圳壹賬通智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010140610.7/2.html,轉載請聲明來源鉆瓜專利網。





