[發明專利]一種解析數據評估方法、設備及介質在審
| 申請號: | 202210427882.4 | 申請日: | 2022-04-22 |
| 公開(公告)號: | CN114780682A | 公開(公告)日: | 2022-07-22 |
| 發明(設計)人: | 楊璞;申傳旺;羅森;李照川;孫長杰 | 申請(專利權)人: | 浪潮卓數大數據產業發展有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F40/289 |
| 代理公司: | 北京君慧知識產權代理事務所(普通合伙) 11716 | 代理人: | 肖鵬 |
| 地址: | 214002 江蘇省無錫市無錫經濟開發區金融一街15號110*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 解析 數據 評估 方法 設備 介質 | ||
本申請公開了一種解析數據評估方法、設備及介質,方法包括:獲取待解析的非結構化數據,并將非結構化數據解析為預設解析模板中多個字段對應的解析數據;其中,解析數據為結構化數據;根據預先構建的多個評估模型,確定解析數據的多個初始評估值;其中,評估模型用于評估解析數據的正確率,多個評估模型之間的估值區間相同;確定多個初始評估值分別對應的權重值,根據權重值,確定解析數據的最終評估值;根據最終評估值,對解析數據進行評估。通過采用多個評估模型相結合的方式,避免了單種方法的不確定性,幫助開發人員更高效完成解析數據的篩查工作,減輕人工篩查環節的工作壓力,提高解析數據評估效率。
技術領域
本申請涉及計算機技術領域,尤其涉及一種解析數據評估方法、設備及介質。
背景技術
隨著互聯網的高速發展,每天都會有大量的數據產生,這些數據大多雜亂無章,無法直接產生價值,需要為了實現對大量非結構數據的解析、提取,獲得結構化的便于直觀分析的數據。比如,需要通過人與房屋地址之間的關系,統計分析各層級地址內的年齡分布、性別分布、收支分布、學歷分布等。
目前,已存在好多開源程序或接口供用戶去調用,比如,自然語言處理或深度學習領域存在有許多開源方法,如libpostal開源項目,HANLP服務,百度地址API開放平臺,又或是基于NLP的命名實體識別任務與深度學習相結合的設計模型,都有著不錯的分詞效果。
但是,任何解析模型都無法對數據解析提供百分百的準確率,因此,后期還需要用戶去逐一篩查不合格的解析數據,在此過程中,由于存在大量解析數據,用戶也無法保證解析數據的評估正確率,從而浪費大量人力,解析數據評估效率非常低。
發明內容
本申請實施例提供一種解析數據評估方法、設備及介質,用于解決解析數據評估效率低的問題。
本申請實施例采用下述技術方案:
一方面,本申請實施例提供了一種解析數據評估方法,該方法包括:獲取待解析的非結構化數據,并將所述非結構化數據解析為預設解析模板中多個字段對應的解析數據;其中,所述解析數據為結構化數據;根據預先構建的多個評估模型,確定所述解析數據的多個初始評估值;其中,所述評估模型用于評估所述解析數據的正確率,所述多個評估模型之間的估值區間相同;確定所述多個初始評估值分別對應的權重值,根據所述權重值,確定所述解析數據的最終評估值;根據所述最終評估值,對所述解析數據進行評估。
一個示例中,所述多個評估模型包括第一評估模型,所述多個初始評估值包括第一初始評估值,所述方法還包括:確定所述解析數據的字符長度,以及所述解析數據的預設字符長度;將所述字符長度與所述預設字符長度進行匹配,確定所述字符長度與所述預設字符長度之間的長度差值;根據所述長度差值,確定所述解析數據的第一初始評估值。
一個示例中,所述解析數據包括第一解析結果與第二解析結果,所述多個評估模型包括第二評估模型,所述多個初始評估值包括第二初始評估值,所述方法還包括:對所述第一解析結果進行嵌入處理,并通過詞向量模型,確定所述第一解析結果中所述多個字段對應的第一詞嵌入平均值;以及對所述第二解析結果進行嵌入處理,并通過所述詞向量模型,確定所述第二解析結果中所述多個字段對應的第二詞嵌入平均值;根據所述第一詞嵌入平均值,確定所述第一解析結果的詞嵌入平均值,以及根據所述第二詞嵌入平均值,確定所述第二解析結果的詞嵌入平均值;計算所述第一解析結果的詞嵌入平均值與所述第二解析結果的詞嵌入平均值之間的余弦值;根據所述余弦值,確定所述第一解析結果與第二解析結果之間的相似度;根據所述相似度,確定所述解析數據的第二初始評估值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浪潮卓數大數據產業發展有限公司,未經浪潮卓數大數據產業發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210427882.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種可調垂直指向的擴音音柱
- 下一篇:一種用于燒傷整形的皮膚美容嘴型撐開裝置
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





