[發明專利]一種基于自然語言理解的智能取數系統及其方法有效
| 申請號: | 201910292704.3 | 申請日: | 2019-04-12 |
| 公開(公告)號: | CN110119404B | 公開(公告)日: | 2021-10-08 |
| 發明(設計)人: | 王同和;凌立剛;孫銳 | 申請(專利權)人: | 杭州量之智能科技有限公司 |
| 主分類號: | G06F16/242 | 分類號: | G06F16/242;G06F16/2452 |
| 代理公司: | 杭州云睿專利代理事務所(普通合伙) 33254 | 代理人: | 張驍敏 |
| 地址: | 310000 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 自然語言 理解 智能 系統 及其 方法 | ||
本發明公開了一種基于自然語言理解的智能取數系統及其方法,包括用戶自然語言交互模塊、Search Engine、Schema Graph、Tokenizer、Tree Builder、SQL Generation,用戶自然語言交互模塊輸送自然語言至外部分詞器進行外部分段來分隔單詞,Tokenizer識別每個分隔單詞含義和將單詞組合成短語,最終自動或與用戶交互選擇最佳組合和解釋;Tree Builder根據Tokenizer內的節點序列構建Query Tree,SQL Generation則將Query Tree轉化成SQL至數據庫DB內、并反饋至用戶自然語言交互模塊內供用戶參考,能夠支持更多的問句形式和支持更豐富的復雜查詢,運用更少的信息可以在沒有與用戶交互的情況下在MAS數據集上達到更高的準確度。
技術領域
本發明涉及計算機科學領域,特別涉及一種基于自然語言理解的智能取數系統及其方法。
背景技術
數據庫的自然語言接口為人們提供了一種更簡單、更符合習慣的方式來訪問數據庫,即使是缺乏計算機專業知識的人也可以通過該接口,使用自然語言查詢的方式,輕松獲取數據庫中的數據。使用這樣的查詢方式,用戶既不需要掌握復雜的結構化查詢語言(如SQL),也不需要了解數據庫的表結構,然而數據庫自然語言的接口構建一直是個難題,目前最主流的解決方案有NaLIR、ATHENA等。
圖1展示了NaLIR的系統架構,整個系統由三個主要部分組成:問句解析部分、交互式通信器和查詢樹翻譯器部分。問句解析部分包含分析樹節點映射器(parse tree nodemapper)和分析樹結構調整器(parse tree structure Adjustor),負責將自然語言查詢解析成一顆查詢樹。交互式通信器(interactive communicator)負責與用戶交流,來確保解析過程的正確性。被用戶所確認的查詢樹會被查詢樹翻譯器(query tree translator)翻譯成SQL語句,然后由RDBMS(關系型數據庫管理系統)執行。
圖2展示了ATHENA的系統架構,假設用戶提交了這樣一個查詢:“Show merestricted stock investments in Alibaba since 2012by investor and year”。第一步,NLQ引擎將確定這個查詢對應至本體中的哪些元素。比如,片段“restricted stock”將被對看作是InstitutionalInvestment.type或是Holding.type屬性的一個值。相似的,片段“Alibaba”可能指Company.name、一個InvestorCompany或者一個Lender。NLQ引擎會處理所有這些可能的對應關系,并生成符合條件的解釋結果的列表,解釋結果需要遵循本體結構和語法上的約束,對于每個解釋結果,會生成相應的自然語言解釋。
在查詢被解釋的過程中,NLQ引擎依賴于一個附屬的服務,叫做翻譯索引(Translation Index,TI)。TI為RS中的數據和元數據、本體中的概念、屬性、關系提供了索引。比如,在上述例子中,NLQ引擎會在TI中搜索“Alibaba”這個詞,“Alibaba”被映射至本體中的Company.name屬性。而基于本體至數據庫映射關系,TI會知道“Alibaba”是RS中保存的Company表name列中的一個數據值。當然,事實上“Alibaba”還對應著本體中的其他元素(InvestorCompany、Lender),TI會獲得“Alibaba”與數據庫對象之間的所有關系。TI通過使用語義變體生成方案提供了強大而靈活的匹配功能。重要的是,通過TI索引的數據,ATHENA不僅可以索引準確的值,也可以支持某個值的不同別名。ATHENA提供了語義變體生成器(variant generator,VG),對人名、公司名等有效。比如,給一個輸入字符串“AlibabaInc”,公司名的VG會給出以下一些別名:f“Alibaba”,“Alibaba Inc”,“Alibaba Inc.”,“Alibaba Incorporated”}。這使得ATHENA的用戶可以通過索引中值的任何別名準確的表達一個查詢,TI在離線初始化階段被構建,并由RS中的數據填充。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州量之智能科技有限公司,未經杭州量之智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910292704.3/2.html,轉載請聲明來源鉆瓜專利網。





