[發明專利]一種提問式的分析節點生成方法、系統及存儲介質有效
| 申請號: | 202011259004.3 | 申請日: | 2020-11-12 |
| 公開(公告)號: | CN112270189B | 公開(公告)日: | 2023-07-18 |
| 發明(設計)人: | 姜磊;鐘穎欣;辛巖;楊釗 | 申請(專利權)人: | 佰聆數據股份有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F16/33;G06F16/332;G06F18/2411;G06N3/0464;G06N3/049;G06N3/08 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 林梅繁 |
| 地址: | 510663 廣東省廣州市高新技術產業開*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 提問 分析 節點 生成 方法 系統 存儲 介質 | ||
1.一種提問式的分析節點生成方法,其特征在于,包括以下步驟:
S1、對所輸入自然語言問題進行預處理、分詞處理,得到分詞處理后的詞語;
S2、對預處理后的輸入自然語言問題對應的文本數據進行特征表示、特征提取,轉化為數值形式;
S3、將所輸入自然語言問題中的關鍵信息抽取出來,對關鍵信息進行類型識別,得到實體類別信息;
S4、構建意圖識別模型,判斷所輸入自然語言問題的分析意圖,完成意圖識別;
S5、結合上述步驟S2-S4中特征提取、類型識別、意圖識別的結果,得到自然語言問題中所需要分析的數據源、分析維度、分析指標、分析任務以及其他附加數據分析信息,并自動生成分析節點;
步驟S3包括:
S31、對訓練數據中的文本數據進行序列標注,得到文本數據中每個詞元素所屬片段的實體類型及該詞元素在所屬片段中的位置,形成標注數據;
其中,對訓練數據中的文本數據采用BIO標注方式進行序列標注,哪些詞是實體名稱,哪些詞不是實體名稱,將文本數據中每個詞元素標注為“B-X”、“I-X”或者“O”,其中“B-X”表示詞元素所在的片段屬于X類型并且該詞元素在此片段的開始處,“I-X”表示詞元素所在的片段屬于X類型并且該詞元素在此片段的中間位置,“O”表示詞元素不屬于任何類型,“X”表示所要識別的實體類型名稱,時間實體為“TIM”,地區實體為“DIS”,維度實體為“DIM”;S32、將序列標注后的數據作為訓練數據,使用BiLSTM-CRF模型進行訓練,將經過參數優化后得到的模型用于新輸入自然語言問題的類型識別;
步驟S4包括:
S41、首先需要對訓練數據進行標注,對每一個自然語言問題進行意圖類型的標注;
S42、將分類模型訓練、構建成意圖識別模型,利用意圖識別模型對所輸入自然語言問題對應的文本數據進行意圖識別,對每個意圖類型進行概率預測,選取概率最大的作為所輸入自然語言問題的意圖類型;
步驟S5包括:
S51、分析節點任務數據接口制定,針對每個分析節點任務制定標準的數據接口;
S52、數據接口信息生成,基于實體類別信息,結合元數據信息,匹配索引得到數據源信息、指標信息、維度信息以及其他附加數據分析信息;基于分析意圖確定分析節點任務;將數據源信息、指標信息、維度信息以及其他附加數據分析信息經過處理后,傳遞給對應的分析節點任務,同時調用該分析節點任務完成分析結果的生成和展示。
2.根據權利要求1所述的分析節點生成方法,其特征在于,其他附加數據分析信包括時間信息、地區信息。
3.根據權利要求1所述的分析節點生成方法,其特征在于,步驟S51中,趨勢分析節點任務輸入數據包括數據源名稱、分析指標、時間范圍及篩選條件;分布分析節點任務輸入數據包括數據源名稱、分析指標、分析維度及篩選條件。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于佰聆數據股份有限公司,未經佰聆數據股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011259004.3/1.html,轉載請聲明來源鉆瓜專利網。





