[發(fā)明專利]檔案編研數(shù)據(jù)生方法及裝置、電子設備和存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202310006058.6 | 申請日: | 2023-01-03 |
| 公開(公告)號: | CN115905579A | 公開(公告)日: | 2023-04-04 |
| 發(fā)明(設計)人: | 高明 | 申請(專利權)人: | 中國建設銀行股份有限公司;建信金融科技有限責任公司 |
| 主分類號: | G06F16/38 | 分類號: | G06F16/38;G06F16/28;G06F16/25;G06F40/30;G06F40/289;G06F21/64 |
| 代理公司: | 中科專利商標代理有限責任公司 11021 | 代理人: | 樊曉 |
| 地址: | 100033 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 檔案 數(shù)據(jù) 方法 裝置 電子設備 存儲 介質(zhì) | ||
1.一種檔案編研數(shù)據(jù)生成方法,包括:
基于原始檔案數(shù)據(jù)文件生成多個三元組數(shù)據(jù),其中各個三元組數(shù)據(jù)包括第一實體、第二實體、所述第一實體和所述第二實體之間的關聯(lián)關系,所述第一實體和所述第二實體的類別為預設實體類別之一,所述預設實體類別至少包括人物、事件、機構;
計算所述多個三元組數(shù)據(jù)中至少一條目標三元組數(shù)據(jù)各自的參考值,其中,所述目標三元組數(shù)據(jù)中的第一目標實體屬于人物實體類別,所述目標三元組數(shù)據(jù)中的第二目標實體屬于所述預設實體類別之一,所述參考值用于表征:所述第一目標實體和所述第二目標實體之間關聯(lián)關系的準確性;
基于所述至少一條目標三元組數(shù)據(jù)各自的參考值以及所述多個三元組數(shù)據(jù),生成檔案編研數(shù)據(jù)。
2.根據(jù)權利要求1所述的方法,計算所述目標三元組數(shù)據(jù)的參考值包括:
確定與所述目標三元組數(shù)據(jù)關聯(lián)的目標指標的指標值和指標權重,其中所述目標指標包括以下至少之一:第一實體指標、第二實體指標、全局命中率指標,其中,所述第一實體指標與所述第一目標實體的屬性關聯(lián),所述第二實體指標與所述第二目標實體的屬性關聯(lián),所述全局命中率指標與所述第一目標實體和所述第二目標實體同時關聯(lián);
根據(jù)與所述目標三元組數(shù)據(jù)關聯(lián)的目標指標的指標值和指標權重,計算得到所述目標三元組數(shù)據(jù)的參考值。
3.根據(jù)權利要求2所述的方法,其中,確定與所述目標三元組數(shù)據(jù)關聯(lián)的全局命中率指標的指標值包括:
確定所述目標三元組數(shù)據(jù)在所述原始檔案數(shù)據(jù)文件中的第一引用次數(shù);
確定所述多個三元組數(shù)據(jù)中的至少一個關聯(lián)數(shù)據(jù)分別在所述原始檔案數(shù)據(jù)文件中的第二引用次數(shù),其中所述關聯(lián)數(shù)據(jù)與所述目標三元組數(shù)據(jù)中的人物名稱相同,且所述關聯(lián)數(shù)據(jù)中的第二實體與所述目標三元組數(shù)據(jù)中的第二目標實體屬于同一實體類別;
計算所述第一引用次數(shù)與至少一個所述第二引用次數(shù)之和的比值,以得到所述全局命中率指標的指標值。
4.根據(jù)權利要求2所述的方法,其中,確定與所述目標三元組數(shù)據(jù)關聯(lián)的第一實體指標的指標值包括:
從所述原始檔案數(shù)據(jù)文件中抽取所述第一目標實體的屬性值,其中所述第一目標實體的屬性值包括與所述第一目標實體對應的人物職級;
根據(jù)第一預設打分規(guī)則,確定與所述第一目標實體的屬性值對應的分數(shù),作為所述第一實體指標的指標值。
5.根據(jù)權利要求2所述的方法,其中,確定與所述目標三元組數(shù)據(jù)關聯(lián)的第二實體指標的指標值包括:
從所述原始檔案數(shù)據(jù)文件中抽取所述第二目標實體的屬性值;
根據(jù)第二預設打分規(guī)則,確定與所述第二目標實體的屬性值對應的分數(shù),作為所述第二實體指標的指標值。
6.根據(jù)權利要求5所述的方法,其中:
在所述第二目標實體的實體類別為機構實體類別的情況下,所述第二目標實體的屬性值包括與所述第二目標實體對應的機構級別;
在所述第二目標實體的實體類別為事件實體類別的情況下,所述第二目標實體的屬性值包括與所述第二目標實體對應的事件類型;
在所述第二目標實體的實體類別為人物實體類別的情況下,所述第二目標實體的屬性值包括與所述第二目標實體對應的人物職級。
7.根據(jù)權利要求2-6任一項所述的方法,其中,確定與所述目標三元組數(shù)據(jù)關聯(lián)的目標指標的指標權重包括:
按照預設權重配比規(guī)則,確定與所述目標三元組數(shù)據(jù)關聯(lián)的目標指標的指標權重,其中所述第一實體指標的權重大于所述第二實體指標的權重,所述第二實體指標的權重大于所述全局命中率指標的權重。
8.根據(jù)權利要求1所述的方法,其中,所述原始檔案數(shù)據(jù)文件包括以下至少之一:文書檔案、文字圖片檔案,基于原始檔案數(shù)據(jù)文件生成多個三元組數(shù)據(jù)包括:
利用預設文字識別算法識別所述文字圖片檔案中的文字后得到識別文字;
利用預設語義提取算法從所述文書檔案和/或所述識別文字中的抽取所述第一實體、所述第二實體、所述第一實體和所述第二實體之間的關聯(lián)關系,以生成所述多個三元組數(shù)據(jù)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國建設銀行股份有限公司;建信金融科技有限責任公司,未經(jīng)中國建設銀行股份有限公司;建信金融科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310006058.6/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結構
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





