[發明專利]一種基于自然語言處理的圖表推薦系統及方法有效
| 申請號: | 202010245843.3 | 申請日: | 2020-03-31 |
| 公開(公告)號: | CN111460102B | 公開(公告)日: | 2022-09-09 |
| 發明(設計)人: | 不公告發明人 | 申請(專利權)人: | 成都數之聯科技股份有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/335;G06F16/34 |
| 代理公司: | 成都行之專利代理事務所(普通合伙) 51220 | 代理人: | 李朝虎 |
| 地址: | 610000 四川省成都市*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 自然語言 處理 圖表 推薦 系統 方法 | ||
1.一種基于自然語言處理技術的圖表推薦系統,其特征在于,包括:搜索引擎模塊,處理模塊,計算模塊,輸出模塊和存儲模塊;
處理模塊用于識別輸入搜索引擎模塊的描述文本,并對描述文本進行自然語言處理后得到一個描述文本詞向量集合;
處理模塊還用于確定多個數據集中與描述文本詞向量集合距離最近的目標數據集,目標數據集中的詞向量即為目標詞向量集合,處理模塊提取目標詞向量集合中的目標字段形成目標字段集合;
判斷模塊用于判斷目標字段集合中的元素數據類型;所述目標字段集合中的元素數據類型包括字符型數據和數值型數據;
計算模塊用于將目標字段集合中的元素與目標數據集對應的數據進行匹配,并將目標字段集合在目標數據集中對應的數據進行聚合得到對應的目標定位數據;
輸出模塊根據目標字段集合中的元素數據類型和目標字段集合在各數據集中對應的定位數據計算出指標數據,將指標數據與圖表類型表示范圍的臨界值進行比較,判定出合適范圍值的圖表類型,輸出模塊將合適范圍值的圖表類型反饋給用戶;
存儲模塊用于存儲數據集;
所述合適范圍值的圖表類型判定方法為:
以字符型目標字段為維度X,以數值型目標字段為維度Y建立字符型目標字段與數值型目標字段的二維矩陣,當二維矩陣的指標數據都在圖表類型表示范圍的臨界值范圍內,則判定該指標數據滿足該圖表的最佳范圍;
當二維矩陣的指標數據滿足多個圖表類型的最佳范圍,則計算出當前二維矩陣的指標數據值與各個圖表邊緣臨界的距離,對距離進行降序排序,選擇距離與邊緣臨界值最遠的前三個圖表;
所述二維矩陣的指標數據包括:
維度X的指標數據為:字符型目標字段的個數和該字段在目標數據集中的對應不同數據個數的乘積;
維度Y的指標數據為:數值型目標字段的個數和該字段在目標數據集中的對應不同數據個數的乘積。
2.根據權利要求1所述的一種基于自然語言處理技術的圖表推薦系統,其特征在于,所述自然語言處理過程為:通過分詞方法將描述文本分解成多個詞語,利用已訓練好的詞向量將每個詞語映射成一個實體詞向量,再將所有詞語對應的實體詞向量組合得到一個描述文本詞向量集合。
3.根據權利要求1所述的一種基于自然語言處理技術的圖表推薦系統,其特征在于,所述多個數據集中與描述文本詞向量集合距離最近的目標數據集確定方法為:
在數據集中尋找與描述文本各詞語匹配的字段,并計算與描述文本詞語字段匹配的所有數據集與描述文本詞向量之間的距離,使得兩詞向量距離最小的數據集即為目標數據集。
4.一種基于自然語言處理技術的圖表推薦方法,基于權利要求1-3任意一項權利要求所述的系統實現,其特征在于,所述方法包括:
S1.用公共語料庫建立多個數據集;
S2.用詞向量集合表示輸入引擎模塊的描述文本;
S3.圖表推薦系統用自然語言處理方式確定數據集中與描述文本詞向量集合距離最近的目標詞向量集合;
S4.將目標字段集合中的元素與相應數據集中數據進行匹配并收集匹配數據;
S5.判定合適范圍值的圖表類型,并以可視化形式反饋給用戶。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都數之聯科技股份有限公司,未經成都數之聯科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010245843.3/1.html,轉載請聲明來源鉆瓜專利網。





