[發(fā)明專(zhuān)利]一種面向智能數(shù)據(jù)可視化的對(duì)話式問(wèn)答實(shí)現(xiàn)方法有效
| 申請(qǐng)?zhí)枺?/td> | 202110399195.1 | 申請(qǐng)日: | 2021-04-14 |
| 公開(kāi)(公告)號(hào): | CN113111158B | 公開(kāi)(公告)日: | 2022-05-10 |
| 發(fā)明(設(shè)計(jì))人: | 李齊良;李舒琴 | 申請(qǐng)(專(zhuān)利權(quán))人: | 杭州電子科技大學(xué) |
| 主分類(lèi)號(hào): | G06F16/332 | 分類(lèi)號(hào): | G06F16/332;G06F16/33;G06F16/242;G06F16/338;G06F16/34 |
| 代理公司: | 浙江千克知識(shí)產(chǎn)權(quán)代理有限公司 33246 | 代理人: | 周希良 |
| 地址: | 310018 浙江省杭州市*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 面向 智能 數(shù)據(jù) 可視化 對(duì)話 問(wèn)答 實(shí)現(xiàn) 方法 | ||
1.一種面向智能數(shù)據(jù)可視化的對(duì)話式問(wèn)答實(shí)現(xiàn)方法,其特征是按如下步驟進(jìn)行:
第一步:通過(guò)數(shù)據(jù)庫(kù)收集、分析方法的SQL函數(shù)集構(gòu)建、問(wèn)題創(chuàng)建與SQL、可視化方案標(biāo)注、SQL語(yǔ)句審閱、問(wèn)題文本審閱、整體審閱來(lái)構(gòu)建數(shù)據(jù)集;
第二步:在數(shù)據(jù)集的基礎(chǔ)上,通過(guò)具體問(wèn)題的數(shù)學(xué)化來(lái)構(gòu)造問(wèn)題;
第三步:建立將文本轉(zhuǎn)化為分析型SQL,文本可視化方案提取的模型框架;
第四步:建立自動(dòng)評(píng)估與人類(lèi)評(píng)估的評(píng)估方案;
第一步具體如下:
在Spider數(shù)據(jù)集的基礎(chǔ)上進(jìn)行擴(kuò)展,其中包含200個(gè)數(shù)據(jù)庫(kù),每個(gè)數(shù)據(jù)庫(kù)平均含有5.1個(gè)表格;
采用描述性分析與推理統(tǒng)計(jì)收集常用分析方法,并構(gòu)建一種機(jī)制使使用者能夠根據(jù)需要擴(kuò)展;確定了分析方法后,制定默認(rèn)的可視化方案,最后形成分析方法的SQL函數(shù)集;
在擁有分析方法的SQL函數(shù)集后,則可開(kāi)始生成文本及對(duì)應(yīng)的SQL、及可視化:首先針對(duì)每個(gè)數(shù)據(jù)集生成20-30個(gè)SQL,這些SQL的生成遵循如下規(guī)則:1)覆蓋50%的分析方法;2)涉及數(shù)據(jù)庫(kù)的每一個(gè)表格;3)自動(dòng)根據(jù)表格屬性生成SQL;4)由于對(duì)于同一結(jié)果,用不同的SQL表示,規(guī)定SQL協(xié)議,生成時(shí)須符合協(xié)議;
第二步具體如下:
給定自然語(yǔ)言問(wèn)題Q,一個(gè)關(guān)系型數(shù)據(jù)庫(kù)對(duì)象集合S=C,T,以及分析方法函數(shù)集COMP,目標(biāo)是生成對(duì)應(yīng)的SQL查詢語(yǔ)句P以及對(duì)應(yīng)的可視化結(jié)果VIS;問(wèn)題由單詞序列組成Q=q1,q2,…,qQ;數(shù)據(jù)庫(kù)對(duì)象集合S由列C={c1,c2,...,c|C|}以及表格名稱(chēng)T={t1,t2,...,t|T|}組成;分析方法函數(shù)集由多條SQL寫(xiě)就的函數(shù)組成COMP=comp1,comp2,...,comp|COMP|;
每個(gè)列名ci包含單詞每個(gè)表格名稱(chēng)ti包含單詞SQL查詢語(yǔ)言P由抽象語(yǔ)法樹(shù)(AST)T來(lái)表示;可視化結(jié)果VIS由name,color,axis組成,其中name使用的可視化圖名稱(chēng),color表示所使用的顏色集,axis表示軸位置,由三個(gè)數(shù)字表示,第一個(gè)數(shù)字0,1表示第一個(gè)維度是否映射在橫軸上,第二個(gè)數(shù)字0,1代表橫軸在上或下,第三個(gè)數(shù)字0,1代表豎軸在左或右,在自然語(yǔ)言中不指定軸信息時(shí)為默認(rèn)為000;
模式中的某些列是主鍵,用于對(duì)相應(yīng)表進(jìn)行唯一索引,有些是外鍵,用于引用其他表中的主鍵列;此外,每一列的類(lèi)型為τ∈{number,text};因此,形式上將數(shù)據(jù)庫(kù)對(duì)象集合表示為有向圖G=V,E,它的節(jié)點(diǎn)V=C∪T是對(duì)象集合的列名和表名,每個(gè)列和表中都帶有其名稱(chēng)中的單詞;
有向圖G是對(duì)于數(shù)據(jù)庫(kù)對(duì)象集合的編碼;定義一個(gè)新的以問(wèn)題為上下文的數(shù)據(jù)庫(kù)對(duì)象集合有向圖GQ=VQ,EQ,其中,VQ=V∪Q=C∪T∪Q,為問(wèn)題與數(shù)據(jù)庫(kù)對(duì)象集合內(nèi)容的對(duì)應(yīng)后得到的邊,其獲取方式在對(duì)象集合鏈接中描述;
以上定義后,把問(wèn)題分為兩個(gè)子任務(wù):(1)文本轉(zhuǎn)換為分析型SQL;(2)文本轉(zhuǎn)換為可視化方案VIS;對(duì)于文本轉(zhuǎn)換為分析型SQL這一任務(wù),它的基本結(jié)構(gòu)為編碼器-解碼器架構(gòu),在選出分析方法comp后,將comp、有向圖GQ使用編碼器fenc編碼為ci,ti,qi,comp,其中ci為某一列名的編碼,ti為某一表名的編碼,qi為問(wèn)題中某一詞匯的編碼;解碼器fdec以上述內(nèi)容為輸入,計(jì)算(P|GQ,COMP)的分布;
第三步中,文本轉(zhuǎn)化為分析型SQL具體為:
自注意力機(jī)制的思想是每個(gè)元素可由其與其他元素的關(guān)系來(lái)表述,即將關(guān)系信息編碼入元素中,計(jì)算方式為:
以上計(jì)算可以概括為:
yi=SelfAttn(xi,X);
Softmax:指歸一化指數(shù)函數(shù);
LayerNorm:層標(biāo)準(zhǔn)化函數(shù);
ReLu:線性整流函數(shù);
SelfAttn:自注意力機(jī)制函數(shù);
Concat:連接多個(gè)函數(shù)或數(shù)組的函數(shù);
LSMT:快速分類(lèi)函數(shù);
然而,這種自注意力機(jī)制只計(jì)算了某兩種元素的單層關(guān)系,在實(shí)際情況中,元素可能與某幾個(gè)元素的組合有更直接的關(guān)系;算法一如下:
首先使用GloVe embedding方法對(duì)有向圖G中的列名ci及表名ti編碼得到與然后運(yùn)行雙向LSTM得到與對(duì)于問(wèn)題Q的編碼,使用雙向LSTM,輸出其中每個(gè)詞的編碼其中包含識(shí)別出來(lái)的分析方法相關(guān)詞匯,記為compinit;
算法二如下表,只排除分析方法相關(guān)詞匯進(jìn)行計(jì)算:
數(shù)據(jù)庫(kù)關(guān)系集合鏈接能夠幫助自然語(yǔ)言問(wèn)題中的表格、列、值引用與數(shù)據(jù)庫(kù)關(guān)系集合對(duì)齊;對(duì)齊主要分為兩個(gè)部分:名稱(chēng)鏈接與值鏈接;
名稱(chēng)鏈接為將列或表格名稱(chēng)與自然語(yǔ)言詞匯相匹配;匹配分為全匹配與部分匹配;具體來(lái)說(shuō),首先計(jì)算自然語(yǔ)言問(wèn)題中長(zhǎng)度為1到5的n-grams,然后判斷其是否完全匹配列名或表名或該n-gram是列名或表名的子序列,由此得到4種關(guān)系,TEM,TPM,CEM,CPM;
數(shù)據(jù)庫(kù)中的值即是背景知識(shí)的良好來(lái)源,因此可將問(wèn)題與數(shù)據(jù)庫(kù)中的值進(jìn)行匹配,將該關(guān)系定義為CELLMATCH;數(shù)據(jù)庫(kù)中的值匹配需要進(jìn)行數(shù)據(jù)庫(kù)查詢,所以使用SQL子句來(lái)構(gòu)造查詢語(yǔ)句;
為了捕獲模型中的直覺(jué),將關(guān)系感知的注意作為y中每個(gè)元素與所有列/表之間的指針機(jī)制,以計(jì)算列及表對(duì)齊矩陣
解碼器基于抽象語(yǔ)法樹(shù)以深度優(yōu)先的順序遍歷得到結(jié)果;使用LSTM在每一步輸出一個(gè)行為,一種行為是擴(kuò)展最后生成的節(jié)點(diǎn)為一個(gè)語(yǔ)法規(guī)則APPLYRULE;另一種行為是從對(duì)象集合中選擇列或表,即SELECTCOL或SELECTTAB;解碼器生成SQL的過(guò)程可表示為p(P|Y)=Πtp(at|a<t,Y),其中Y=fenc(GQ)為編碼器的最終輸出,a<t為第t步之前所有的行為;
使用基于樹(shù)的LSTM對(duì)分析方法函數(shù)f編碼得到femd=LSTM(f),編碼器輸出修改為:
Y=fenc(GQ,COMP);
第三步中,文本可視化方案提取:對(duì)可視化方案做了以下的簡(jiǎn)化,一是只處理二維數(shù)據(jù)的可視化,二是可視化控制維度只包含可視化類(lèi)型name、顏色color以及軸位置axis;將問(wèn)題簡(jiǎn)化為計(jì)算p((name,color,axis)|Q,P),將結(jié)果SQL作為條件的原因是問(wèn)題中可能不含有可視化的描述,所以這時(shí)使用分析方法的默認(rèn)可視化方案;使用雙向LSTM對(duì)問(wèn)題進(jìn)行編碼Q,然后在最后一步輸出可視化方案各維度的離散概率分布p(name),p(color),p(axis);概率分布的最大值小于某一閾值時(shí),取默認(rèn)方案;超過(guò)閾值時(shí),取最大值對(duì)應(yīng)的名稱(chēng)。
2.如權(quán)利要求1所述面向智能數(shù)據(jù)可視化的對(duì)話式問(wèn)答實(shí)現(xiàn)方法,其特征是,第四步具體如下:
利用自動(dòng)評(píng)估來(lái)評(píng)估生成的分析型SQL語(yǔ)句以及可視化方案的準(zhǔn)確性;
對(duì)于人類(lèi)評(píng)估,提供擬進(jìn)行橫向和縱向兩種角度進(jìn)行評(píng)估;橫向評(píng)估:即比較不同人工智能算法下數(shù)據(jù)回答的完成度與準(zhǔn)確度,只是此處由人工打分;縱向評(píng)估:預(yù)定一組數(shù)據(jù)集,以及分析目標(biāo),邀請(qǐng)商務(wù)智能分析員數(shù)名,平分為兩組,一組使用普通的商務(wù)智能問(wèn)答工具,另一組使用本方法;記錄兩組數(shù)據(jù)。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于杭州電子科技大學(xué),未經(jīng)杭州電子科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110399195.1/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)可視化模型的處理方法及裝置
- 一種可視化內(nèi)容分發(fā)方法及系統(tǒng)
- 數(shù)據(jù)可視化圖形快速應(yīng)用方法及系統(tǒng)
- 基于有效信息的流場(chǎng)可視化視圖量化方法
- 可視化報(bào)表的制作方法、裝置、終端設(shè)備及存儲(chǔ)介質(zhì)
- 一種可視化圖形快速應(yīng)用與傳輸?shù)姆椒跋到y(tǒng)
- 一種可視化數(shù)據(jù)模型編排系統(tǒng)和編排方法
- 一種供水行業(yè)機(jī)房3D可視化運(yùn)維管理系統(tǒng)
- 一種電網(wǎng)數(shù)據(jù)可視化方法、裝置、設(shè)備及介質(zhì)
- 一種大場(chǎng)景城市建筑實(shí)時(shí)三維可視化的方法





