[發明專利]數據分析中的實體識別方法和裝置有效
| 申請號: | 202210058350.8 | 申請日: | 2022-01-19 |
| 公開(公告)號: | CN114138945B | 公開(公告)日: | 2022-06-14 |
| 發明(設計)人: | 田有朋;劉海波;李俊;黃亞東;王小衛;朱文嘉 | 申請(專利權)人: | 支付寶(杭州)信息技術有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F40/242;G06F40/295 |
| 代理公司: | 北京億騰知識產權代理事務所(普通合伙) 11309 | 代理人: | 陳霽;周良玉 |
| 地址: | 310000 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據 分析 中的 實體 識別 方法 裝置 | ||
本說明書實施例提供一種數據分析中的實體識別方法和裝置,方法包括:獲取用戶輸入的自然語言文本,所述自然語言文本用于表達用戶對目標數據的數據分析需求;獲取基于歷史自然語言語料集合和所述目標數據而構建的多個類別的實體詞典,所述多個類別與所述目標數據的數據維度和/或數據分析意圖相關;針對所述自然語言文本中包括的字符,執行字符與所述多個類別的實體詞典中包括的詞的匹配處理,將匹配結果作為識別出的對應類別中的實體。能夠滿足數據分析中的準確性和可解釋性的要求。
技術領域
本說明書一個或多個實施例涉及計算機領域,尤其涉及數據分析中的實體識別方法和裝置。
背景技術
當前,針對數據庫的數據分析需求具有靈活且大量的特點,在面對一項數據分析需求時,需要先由專業人員將數據分析需求轉化為計算機可以理解的結構化查詢語言(structured query language,SQL)語句,然后才能由計算機通過執行該SQL語句對數據庫進行相應的數據分析。
由于專業人員數量有限,對于大量的非專業人員的數據分析需求,通常也需要借助專業人員將其轉化為相應的SQL語句,這一過程往往需要等待很長的時間,無法快速滿足該數據分析需求。因此希望計算機能夠接收用戶輸入的用于表達其數據分析需求的自然語言文本,通過對該自然語言文本進行實體識別,從而基于識別出的實體,理解其數據分析需求。
在數據分析領域,對數據分析結果的要求是100%準確的,相應的,對數據分析中的實體識別的要求是100%準確的,并且要求識別結果具備可解釋性,現有技術中的實體識別方法均不能滿足數據分析中的準確性和可解釋性的要求。
發明內容
本說明書一個或多個實施例描述了一種數據分析中的實體識別方法和裝置,能夠滿足數據分析中的準確性和可解釋性的要求。
第一方面,提供了一種數據分析中的實體識別方法,方法包括:
獲取用戶輸入的自然語言文本,所述自然語言文本用于表達用戶對目標數據的數據分析需求;
獲取基于歷史自然語言語料集合和所述目標數據而構建的多個類別的實體詞典,所述多個類別與所述目標數據的數據維度和/或數據分析意圖相關;
針對所述自然語言文本中包括的字符,執行字符與所述多個類別的實體詞典中包括的詞的匹配處理,將匹配結果作為識別出的對應類別中的實體。
在一種可能的實施方式中,所述數據分析需求包括查詢第一范圍的所述目標數據,以及對該第一范圍的所述目標數據進行第一方式的統計分析。
在一種可能的實施方式中,所述獲取基于歷史自然語言語料集合和所述目標數據而構建的多個類別的實體詞典,包括:
獲取基于歷史自然語言語料集合而構建的全局詞典;
獲取基于所述目標數據歸屬的目標數據庫的元數據信息和數據信息而構建的專有詞典;所述全局詞典和所述專有詞典共同構成所述多個類別的實體詞典。
在一種可能的實施方式中,所述多個類別包括時間類別、單位類別、意圖類別、維度類別、維值類別中的至少一個;所述維度類別對應于所述目標數據歸屬的目標數據庫中的字段名稱,所述維值類別對應于所述目標數據庫中的字段的具體取值。
進一步地,所述專有詞典中的各個詞以三元組的形式存儲,所述三元組包括數據表的名稱、類別名稱和字段名稱。
在一種可能的實施方式中,所述執行字符與所述多個類別的實體詞典中包括的詞的匹配處理,包括:
通過多輪迭代的方式按照順序依次執行當前字符與所述多個類別的實體詞典中包括的詞的匹配處理;其中,在每一輪迭代中,將當前字符與實體詞典中包括的詞進行匹配,若匹配成功,則結束本輪迭代,若匹配不成功,則將當前字符與其下一個字符組合,將組合后的字符串與實體詞典中包括的詞進行匹配,直到匹配成功,則結束本輪迭代。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于支付寶(杭州)信息技術有限公司,未經支付寶(杭州)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210058350.8/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





