[發(fā)明專利]一種通過自然語言獲取數(shù)據(jù)庫信息的自動化系統(tǒng)在審
| 申請?zhí)枺?/td> | 201911175062.5 | 申請日: | 2019-11-26 |
| 公開(公告)號: | CN111125145A | 公開(公告)日: | 2020-05-08 |
| 發(fā)明(設(shè)計)人: | 李安貞;鄒喬莎;史傳進 | 申請(專利權(quán))人: | 復(fù)旦大學(xué) |
| 主分類號: | G06F16/242 | 分類號: | G06F16/242;G06F16/248;G06F16/28 |
| 代理公司: | 上海正旦專利代理有限公司 31200 | 代理人: | 陸飛;陸尤 |
| 地址: | 200433 *** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 通過 自然語言 獲取 數(shù)據(jù)庫 信息 自動化 系統(tǒng) | ||
1.一種通過自然語言獲取數(shù)據(jù)庫信息的自動化系統(tǒng),其特征在于,采用計算機算法分析口語化的自然語言表達,進而從關(guān)系型數(shù)據(jù)庫中獲取信息;系統(tǒng)的輸入信息包括兩個部分:使用者錄入的語音信息以及使用者輸入的文本信息;系統(tǒng)采用關(guān)系型數(shù)據(jù)庫查詢方法、機器學(xué)習(xí)算法和深度學(xué)習(xí)算法,通過語音識別、文本語義分析,結(jié)合數(shù)據(jù)庫查詢語句語法、數(shù)據(jù)庫存儲信息,訓(xùn)練計算機算法學(xué)習(xí)使用者查詢數(shù)據(jù)庫的意圖,從而生成跨表的數(shù)據(jù)庫查詢語句,通過該查詢語句訪問數(shù)據(jù)庫,返回并展示查詢結(jié)果;
其中,所述文本信息是使用者對數(shù)據(jù)庫信息提問的文本信息,語音信息是使用者對數(shù)據(jù)庫提問的語言信息,用于識別使用者訪問數(shù)據(jù)庫的意圖;
系統(tǒng)包括:多媒體信息采集設(shè)備,數(shù)據(jù)庫存儲設(shè)備,自動化信息分析設(shè)備,客戶端軟件;其中:
所述多媒體信息采集設(shè)備,即客戶端,用于自動化信息采集;
所述數(shù)據(jù)庫存儲設(shè)備,用于數(shù)據(jù)存儲、讀取等操作過程;所述數(shù)據(jù)庫存儲設(shè)備包括存儲數(shù)據(jù)庫的服務(wù)器設(shè)備,以及設(shè)備之間聯(lián)接和信息傳輸?shù)木€路;
所述自動化信息分析設(shè)備,用于自動化信息分析;所述信息分析設(shè)備包括進行算法分析的服務(wù)器設(shè)備,以及設(shè)備之間聯(lián)接和信息傳輸?shù)木€路;自動化信息分析設(shè)備通過分析輸入信息,并結(jié)合數(shù)據(jù)庫查詢語句語法、數(shù)據(jù)庫存儲信息,生成跨表的數(shù)據(jù)庫查詢語句;包括:通過語音識別技術(shù)將采集到的語音信息轉(zhuǎn)化為文本信息;將識別后的文本信息通過文本語義分析、深度學(xué)習(xí)算法,訓(xùn)練計算機算法學(xué)習(xí)使用者查詢數(shù)據(jù)庫的意圖;利用識別的意圖、數(shù)據(jù)庫存儲設(shè)備中存儲的數(shù)據(jù)庫結(jié)構(gòu)以及數(shù)據(jù)庫查詢語句語法,生成跨表的數(shù)據(jù)庫查詢語句;通過該查詢語句訪問數(shù)據(jù)庫,返回并展示查詢結(jié)果;
所述客戶端軟件,由使用者操作,客戶端軟件通過與使用者交互,完成使用者語言、文本信息的輸入,以及控制信息采集設(shè)備的運行,將采集信息提交給自動化信息分析設(shè)備,最終將分析結(jié)果通過報告、頁面展示、語音播報等形式從客戶端返回給使用者。
2.根據(jù)權(quán)利要求1所述的通過自然語言獲取數(shù)據(jù)庫信息的自動化系統(tǒng),其特征在于,所述多媒體信息采集設(shè)備包括:
文本信息采集所需的鍵盤或者鼠標(biāo)觸摸板設(shè)備,語音信息采集所需的麥克風(fēng)設(shè)備,與用戶交互的顯示設(shè)備,以及設(shè)備之間聯(lián)接和信息傳輸?shù)木€路。
3.根據(jù)權(quán)利要求1所述的通過自然語言獲取數(shù)據(jù)庫信息的自動化系統(tǒng),其特征在于,所述自動化信息分析設(shè)備中進行自動化分析,包括自動將口語化的輸入信息通過計算機算法轉(zhuǎn)化為數(shù)據(jù)庫查詢語句,從而對數(shù)據(jù)庫進行訪問并返回結(jié)果的過程;具體步驟為:
步驟401,數(shù)據(jù)預(yù)處理;系統(tǒng)對輸入的語音數(shù)據(jù)進行語音識別,并轉(zhuǎn)成文本數(shù)據(jù),再對所有的文本數(shù)據(jù)進行數(shù)據(jù)清洗、消歧、單位統(tǒng)一、字段對齊等預(yù)處理操作,最終將口語化的文本數(shù)據(jù)轉(zhuǎn)化為與數(shù)據(jù)庫存儲內(nèi)容對齊的標(biāo)準(zhǔn)化文本數(shù)據(jù);
步驟402,意圖識別;為了能實現(xiàn)跨表查詢操作,將標(biāo)準(zhǔn)化文本數(shù)據(jù)送入到意圖識別模塊進行意圖識別;通過意圖識別模塊,利用深度學(xué)習(xí)、機器學(xué)習(xí)算法,對標(biāo)準(zhǔn)化文本數(shù)據(jù)進語義分析,讓系統(tǒng)明白用戶訪問數(shù)據(jù)庫的實際需求,從而具體定位到數(shù)據(jù)庫的某個表上,這樣就不需要事先限制用戶查詢數(shù)據(jù)庫的范圍,由系統(tǒng)自動實現(xiàn)跨表查詢;
步驟403,單表查詢;在定位到表后,系統(tǒng)通過單表查詢,結(jié)合數(shù)據(jù)庫查詢語句語法、數(shù)據(jù)庫存儲信息,生成數(shù)據(jù)庫查詢語句;
步驟404,訪問數(shù)據(jù)庫;通過步驟403生成的查詢語句,訪問數(shù)據(jù)庫,返回數(shù)據(jù)庫查詢結(jié)果;
步驟405,數(shù)據(jù)后處理;由于關(guān)系型數(shù)據(jù)庫存儲的信息非常簡潔,需要通過數(shù)據(jù)后處理,結(jié)合輸入文本、語音信息及數(shù)據(jù)庫信息,生成更加豐富并符合自然語言語法的完整回答返回給客戶端用于展示。
4.根據(jù)權(quán)利要求1所述的通過自然語言獲取數(shù)據(jù)庫信息的自動化系統(tǒng),其特征在于,所述自動化信息分析設(shè)備中進行自動化分析,具體步驟為:
與權(quán)利要求3的區(qū)別在于,用多表表征步驟502和跨表查詢步驟503替換權(quán)利要求3中意圖識別步驟402和單表查詢步驟403;通過多表表征步驟502,系統(tǒng)直接獲取整個數(shù)據(jù)庫中所有表格、表格中所有列以及所有表格之間關(guān)系的信息,這里采用的方法包括圖神經(jīng)網(wǎng)絡(luò)、長短期記憶網(wǎng)絡(luò)、預(yù)訓(xùn)練語言模型深度學(xué)習(xí)算法;在獲得多表表征后,結(jié)合標(biāo)準(zhǔn)化文本數(shù)據(jù)進行跨表查詢步驟503,一次性完成語義分析、意圖識別和生成數(shù)據(jù)庫查詢語句的操作;步驟504、步驟505,權(quán)利要求3中的步驟404、步驟405相同。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于復(fù)旦大學(xué),未經(jīng)復(fù)旦大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911175062.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)庫
- 數(shù)據(jù)庫管理系統(tǒng)及數(shù)據(jù)庫
- 數(shù)據(jù)庫構(gòu)筑裝置、數(shù)據(jù)庫檢索裝置、數(shù)據(jù)庫裝置、數(shù)據(jù)庫構(gòu)筑方法、以及數(shù)據(jù)庫檢索方法
- 數(shù)據(jù)庫和數(shù)據(jù)庫處理方法
- 數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)庫更新方法、數(shù)據(jù)庫以及數(shù)據(jù)庫更新程序
- 容器數(shù)據(jù)庫
- 數(shù)據(jù)庫同步方法及數(shù)據(jù)庫
- 一種MongoDB數(shù)據(jù)庫對象復(fù)制延遲監(jiān)控方法和裝置
- 數(shù)據(jù)分布式存儲方法、裝置、電子設(shè)備及存儲介質(zhì)
- 數(shù)據(jù)庫語句執(zhí)行方法及裝置





