[發明專利]檔案編研數據生方法及裝置、電子設備和存儲介質在審
| 申請號: | 202310006058.6 | 申請日: | 2023-01-03 |
| 公開(公告)號: | CN115905579A | 公開(公告)日: | 2023-04-04 |
| 發明(設計)人: | 高明 | 申請(專利權)人: | 中國建設銀行股份有限公司;建信金融科技有限責任公司 |
| 主分類號: | G06F16/38 | 分類號: | G06F16/38;G06F16/28;G06F16/25;G06F40/30;G06F40/289;G06F21/64 |
| 代理公司: | 中科專利商標代理有限責任公司 11021 | 代理人: | 樊曉 |
| 地址: | 100033 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 檔案 數據 方法 裝置 電子設備 存儲 介質 | ||
本公開提供了一種檔案編研數據生方法及裝置、電子設備和存儲介質,可以應用于大數據技術領域。該檔案編研數據生成方法包括基于原始檔案數據文件生成多個三元組數據;計算多個三元組數據中至少一條目標三元組數據各自的參考值;基于至少一條目標三元組數據各自的參考值以及多個三元組數據,生成檔案編研數據。
技術領域
本公開涉及大數據技術領域,具體涉及一種檔案編研數據生成方法、裝置、設備、介質和程序產品。
背景技術
檔案編研是檔案利用工作中的一個重要組成部分,是檔案部門向社會或者向機構普通用戶提供利用服務的基礎性工作。隨著檔案工作數字化發展,檔案資料的線上調閱變得越來越簡單,也為檔案編研工作者提供了便利。但是由于檔案數據量大、檔案種類繁多、載體形式多、檔案編研工作要求高,給檔案編研工作帶來了極大的挑戰。
在實現本公開構思的過程中,發明人發現相關技術中至少存在如下問題:現有檔案編研工作對人工依賴程度高、編研內容完整性難以保證、編研工作量大、效果不佳,并且由于同名人物的存在,增加了檔案編研人員的工作難度,經常出現對于同名人無法正確區分的問題。
發明內容
鑒于上述問題,本公開提供了一種檔案編研數據生成方法、裝置、設備、介質和程序產品。
本公開的一個方面,提供了一種檔案編研數據生成方法,包括:
基于原始檔案數據文件生成多個三元組數據,其中各個三元組數據包括第一實體、第二實體、第一實體和第二實體之間的關聯關系,第一實體和第二實體的類別為預設實體類別之一,預設實體類別至少包括人物、事件、機構;
計算多個三元組數據中至少一條目標三元組數據各自的參考值,其中,目標三元組數據中的第一目標實體屬于人物實體類別,目標三元組數據中的第二目標實體屬于預設實體類別之一,參考值用于表征:第一目標實體和第二目標實體之間關聯關系的準確性;
基于至少一條目標三元組數據各自的參考值以及多個三元組數據,生成檔案編研數據。
根據本公開的實施例,計算目標三元組數據的參考值包括:
確定與目標三元組數據關聯的目標指標的指標值和指標權重,其中目標指標包括以下至少之一:第一實體指標、第二實體指標、全局命中率指標,其中,第一實體指標與第一目標實體的屬性關聯,第二實體指標與第二目標實體的屬性關聯,全局命中率指標與第一目標實體和第二目標實體同時關聯;
根據與目標三元組數據關聯的目標指標的指標值和指標權重,計算得到目標三元組數據的參考值。
根據本公開的實施例,其中,確定與目標三元組數據關聯的全局命中率指標的指標值包括:
確定目標三元組數據在原始檔案數據文件中的第一引用次數;
確定多個三元組數據中的至少一個關聯數據分別在原始檔案數據文件中的第二引用次數,其中關聯數據與目標三元組數據中的人物名稱相同,且關聯數據中的第二實體與目標三元組數據中的第二目標實體屬于同一實體類別;
計算第一引用次數與至少一個第二引用次數之和的比值,以得到全局命中率指標的指標值。
根據本公開的實施例,其中,確定與目標三元組數據關聯的第一實體指標的指標值包括:
從原始檔案數據文件中抽取第一目標實體的屬性值,其中第一目標實體的屬性值包括與第一目標實體對應的人物職級;
根據第一預設打分規則,確定與第一目標實體的屬性值對應的分數,作為第一實體指標的指標值。
根據本公開的實施例,其中,確定與目標三元組數據關聯的第二實體指標的指標值包括:
從原始檔案數據文件中抽取第二目標實體的屬性值;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國建設銀行股份有限公司;建信金融科技有限責任公司,未經中國建設銀行股份有限公司;建信金融科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310006058.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種雙氟磺酰亞胺的制備方法
- 下一篇:一種可以消除翻轉不穩定的上擺開合輥道
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





