[發(fā)明專利]家譜登記表的信息抽取方法及其裝置、電子設(shè)備在審
| 申請(qǐng)?zhí)枺?/td> | 202110888402.X | 申請(qǐng)日: | 2021-08-03 |
| 公開(kāi)(公告)號(hào): | CN113743072A | 公開(kāi)(公告)日: | 2021-12-03 |
| 發(fā)明(設(shè)計(jì))人: | 吳信東;陳浩;卜晨陽(yáng) | 申請(qǐng)(專利權(quán))人: | 合肥工業(yè)大學(xué) |
| 主分類號(hào): | G06F40/186 | 分類號(hào): | G06F40/186;G06F40/205;G06F40/242 |
| 代理公司: | 北京康信知識(shí)產(chǎn)權(quán)代理有限責(zé)任公司 11240 | 代理人: | 周春枚 |
| 地址: | 230009 *** | 國(guó)省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 家譜 登記表 信息 抽取 方法 及其 裝置 電子設(shè)備 | ||
本發(fā)明公開(kāi)了一種家譜登記表的信息抽取方法及其裝置、電子設(shè)備。其中,該信息抽取方法包括:對(duì)家譜登記表模板進(jìn)行預(yù)處理,得到處理后的家譜登記表模板,之后對(duì)處理后的家譜登記表模板中的表格進(jìn)行解析,得到第一字典和第二字典,然后基于第一字典和第二字典,抽取已錄入的所有家譜登記表的信息,得到第三字典,其中,第三字典保存每個(gè)家譜登記表各單元格中的人物信息。本發(fā)明解決了相關(guān)技術(shù)中通過(guò)人工登記方式,無(wú)法自動(dòng)地對(duì)具有不同表格結(jié)構(gòu)的家譜登記表進(jìn)行結(jié)構(gòu)識(shí)別以及抽取人物信息,導(dǎo)致信息抽取效率低的技術(shù)問(wèn)題。
技術(shù)領(lǐng)域
本發(fā)明涉及信息處理技術(shù)領(lǐng)域,具體而言,涉及一種家譜登記表的信息抽取方法及其裝置、電子設(shè)備。
背景技術(shù)
家譜是一種以表譜形式展現(xiàn)家族人物關(guān)系信息的特殊文獻(xiàn)。家譜登記表中可以具有多種表格結(jié)構(gòu),相關(guān)技術(shù)中,沒(méi)有針對(duì)具有多種表格結(jié)構(gòu)的家譜登記表中的信息抽取技術(shù),現(xiàn)有的技術(shù)中,往往是先利用人工先手動(dòng)地核對(duì)家譜登記表中的信息,然后再手動(dòng)地將信息逐個(gè)錄入系統(tǒng),因此,依賴人工實(shí)現(xiàn)家譜表格處理的方法,不僅浪費(fèi)人力成本和時(shí)間成本,而且效率低下。
針對(duì)上述的問(wèn)題,目前尚未提出有效的解決方案。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供了一種家譜登記表的信息抽取方法及其裝置、電子設(shè)備,以至少解決相關(guān)技術(shù)中通過(guò)人工登記方式,無(wú)法自動(dòng)地對(duì)具有不同表格結(jié)構(gòu)的家譜登記表進(jìn)行結(jié)構(gòu)識(shí)別以及抽取人物信息,導(dǎo)致信息抽取效率低的技術(shù)問(wèn)題。
根據(jù)本發(fā)明實(shí)施例的一個(gè)方面,提供了一種家譜登記表的信息抽取方法,包括:對(duì)家譜登記表模板進(jìn)行預(yù)處理,得到處理后的家譜登記表模板;對(duì)所述處理后的家譜登記表模板中的表格進(jìn)行解析,得到第一字典和第二字典,其中,所述第一字典保存每個(gè)表格的結(jié)構(gòu)解析結(jié)果,所述第二字典以屬性名單元格坐標(biāo)為鍵,以所述屬性名單元格相應(yīng)的屬性值單元格坐標(biāo)為值;基于所述第一字典和所述第二字典,抽取已錄入的所有家譜登記表的信息,得到第三字典,其中,所述第三字典保存每個(gè)所述家譜登記表各單元格中的人物信息。
可選地,對(duì)家譜登記表模板進(jìn)行預(yù)處理,得到處理后的家譜登記表模板的步驟,包括:對(duì)所述家譜登記表模板中不同表格中屬性值單元格進(jìn)行標(biāo)注,其中,若所述家譜登記表中有相同表格,則不需要重復(fù)標(biāo)注;若所述家譜登記表模板中同一個(gè)表格中屬性名單元格與屬性值單元格的對(duì)應(yīng)關(guān)系重復(fù)出現(xiàn),則僅標(biāo)注一個(gè)所述屬性值單元格,對(duì)重復(fù)的其它屬性值單元格不標(biāo)注。
可選地,對(duì)所述處理后的家譜登記表模板中的表格進(jìn)行解析,得到第一字典和第二字典的步驟,包括:分析所述家譜登記表模板中表格的初始行的表格塊個(gè)數(shù)和表格列數(shù),將分析結(jié)果保存到第一預(yù)設(shè)列表中;解析每個(gè)表格塊中的表格結(jié)構(gòu),將解析結(jié)果保存到第二預(yù)設(shè)列表中,其中,在所述第二預(yù)設(shè)列表中保存單元格行數(shù)或者表格行數(shù);將所述家譜登記表模板中所有表格對(duì)應(yīng)的第二預(yù)設(shè)列表保存在第一字典,其中,所述第一字典的鍵為所述家譜登記表模板中每個(gè)表格的序號(hào),值為所述第二預(yù)設(shè)列表;基于所述第一預(yù)設(shè)列表和所述第二預(yù)設(shè)列表,確定所述家譜登記表模板中每個(gè)表格的屬性名單元格坐標(biāo)和屬性值單元格坐標(biāo),將所述屬性名單元格坐標(biāo)和所述屬性值單元格坐標(biāo)保存到第二字典中。
可選地,解析每個(gè)表格塊中的表格結(jié)構(gòu),將解析結(jié)果保存到第二預(yù)設(shè)列表中的步驟,包括:選取所述表格塊中的任一表格塊,以被選取的表格塊中的第一行單元格內(nèi)容作為基準(zhǔn)比對(duì)內(nèi)容,其中,所述被選取的表格塊中不包括所述初始行;遍歷所述被選取的表格塊的所有行,若出現(xiàn)與所述基準(zhǔn)比對(duì)內(nèi)容相同的單元格內(nèi)容,記錄被遍歷行的單元格行數(shù),保存到所述第二預(yù)設(shè)列表;若沒(méi)有出現(xiàn)與所述基準(zhǔn)比對(duì)內(nèi)容相同的單元格內(nèi)容,將所述被選取的表格塊中的被遍歷行的行數(shù)保存到所述第二預(yù)設(shè)列表中。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于合肥工業(yè)大學(xué),未經(jīng)合肥工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110888402.X/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





