[發(fā)明專(zhuān)利]一種版式文件圖文自動(dòng)關(guān)聯(lián)的方法及系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 200810239369.2 | 申請(qǐng)日: | 2008-12-11 |
| 公開(kāi)(公告)號(hào): | CN101419717A | 公開(kāi)(公告)日: | 2009-04-29 |
| 發(fā)明(設(shè)計(jì))人: | 徐劍波;董寧;王輝 | 申請(qǐng)(專(zhuān)利權(quán))人: | 北大方正集團(tuán)有限公司;北京方正阿帕比技術(shù)有限公司 |
| 主分類(lèi)號(hào): | G06T11/60 | 分類(lèi)號(hào): | G06T11/60 |
| 代理公司: | 北京同達(dá)信恒知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人: | 郭潤(rùn)湘 |
| 地址: | 100871北京市海淀*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 版式 文件 圖文 自動(dòng) 關(guān)聯(lián) 方法 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明涉及信息技術(shù)處理領(lǐng)域,尤其涉及一種版式文件中圖文自動(dòng)關(guān)聯(lián)的方法及系統(tǒng)。
背景技術(shù)
現(xiàn)有技術(shù)中實(shí)現(xiàn)基于版式文件以及人工干預(yù)來(lái)提取和組合文章的方法。這種方法的優(yōu)點(diǎn)是根據(jù)版式文件的版面信息結(jié)構(gòu)提取版面信息和所有的稿件信息;缺點(diǎn)是:a)不同的版式文件都需要花時(shí)間理解其內(nèi)部的信息存儲(chǔ)格式,導(dǎo)致了不同的版式文件需要開(kāi)發(fā)不同的插件,開(kāi)發(fā)難度大且易用性和擴(kuò)展性不是很好;b)版式文件的必須存儲(chǔ)稿件內(nèi)部之間的關(guān)聯(lián)關(guān)系;通過(guò)分析PS文件以及Fit等文件,發(fā)現(xiàn)版式文件中記錄的稿件關(guān)系并不能夠有效的還原版式文件中文章中上下文的關(guān)系,造成了后端標(biāo)引的時(shí)候工作量很大。
根據(jù)目前可以基于版式文件記錄的信息來(lái)提取稿件的方法;這種方法的優(yōu)點(diǎn)是高效的利用了版式文件提供的公共的信息,實(shí)現(xiàn)了自動(dòng)化成塊操作;缺點(diǎn)是該方法沒(méi)有實(shí)現(xiàn)自動(dòng)成文,需要在結(jié)合人工標(biāo)引的方式來(lái)實(shí)現(xiàn)文章上下文的正確的組合。
綜上,從版式文件中獲取的文字塊、圖片塊等數(shù)據(jù)信息并沒(méi)有有效的組織在一起,而是分散開(kāi)來(lái)的,比如一篇文章的引題,標(biāo)題,副題是分離開(kāi)的,標(biāo)題和文章的正文之間也是分離開(kāi)的;這樣就需要人工進(jìn)行相應(yīng)的關(guān)聯(lián)操作,還原文章的引題,標(biāo)題,副題以及正文,以保證數(shù)據(jù)信息的正確性和完備性,存在著一定的工作量。
發(fā)明內(nèi)容
一篇文章可能包含引題,標(biāo)題,副題,正文,附圖等相關(guān)內(nèi)容。本發(fā)明的目的是通過(guò)圖文自動(dòng)關(guān)聯(lián)的方法,進(jìn)行圖片塊與文章的自動(dòng)匹配,使文章中引用的圖片塊與文章或者正文合并在一起,還原成為文章或者正文的附圖。
本發(fā)明的具體實(shí)現(xiàn)方法是:
A:從版式文件中獲取圖片塊集合{P}和文章集合{A};
B:從反解版式文件后得到的圖片塊集合{P}中取出一個(gè)與已取圖片塊不同的圖片塊;
C:依次獲取文章集合{A}中的文章,比較獲取得到的文章是否與步驟B中取出的圖片塊近鄰,如果沒(méi)有文章與圖片塊近鄰,直接轉(zhuǎn)至步驟D;否則,則將此圖片塊設(shè)置為該文章的附圖;
D:重復(fù)以上步驟,直至圖片塊集合{P}中的所有圖片塊被取過(guò)一次。
進(jìn)一步的,在文章集合{A}中查找與圖片塊近鄰的文章;判斷文章與圖片塊是否近鄰具體操作為:
設(shè)置獲取得到的圖片塊為P1,獲取得到的文章為A1;新建文字塊集合{T},從文章A1中獲取文章的引題,標(biāo)題,副題所對(duì)應(yīng)的文字塊,放置在集合{T}中;
依次獲取文字塊集合{T}中的文字塊,設(shè)為T(mén)1,查看圖片塊P1是否與文字塊T1近鄰;如果近鄰條件成立,記錄圖片塊P與文章的重疊度;如近鄰條件不成立,繼續(xù)從文字塊集合{T}中獲取下一個(gè)文字塊,繼續(xù)同該圖片塊進(jìn)行比較是否近鄰;如果圖片塊和文字塊集合{T}中任何一個(gè)文字塊都不存在近鄰的關(guān)系,那么執(zhí)行以下步驟;
比較圖片塊P1是否與文章正文近鄰:新建文字塊集合{L},如果文章正文對(duì)應(yīng)的文字塊的子塊個(gè)數(shù)大于1,則獲取得到該正文塊的所有子塊,并放置在集合{L}中,依次獲取集合{L}中的文字塊,設(shè)為T(mén)1,查看圖片塊P1與文字塊T1是否近鄰;否則比較文章正文對(duì)應(yīng)的文字塊同圖片塊P1是否近鄰;如果近鄰條件成立,表明圖片塊與文章近鄰關(guān)系成立,記錄圖片塊P1與文章的重疊度。
進(jìn)一步的,還包括以下操作:
創(chuàng)建文章集合{N},篩選文章集合{A}中只存在正文的文章,添加到文章集合{N}中,并從文章集合{A}中刪除;
創(chuàng)建文章集合{M},篩選文章集合{A}中正文為空的文章,添加到文章集合{M}中,并從文章集合{A}中刪除;
將{N}中每篇文章正文對(duì)應(yīng)的文字塊與文章集合{M}比較,如果能找到匹配的文章,將此文章正文對(duì)應(yīng)的文字塊設(shè)置為匹配文章的正文,并從文章集合{N}中刪除該文章;如找不到匹配的文章,則將該文章重新添加到文章集合{A}中,并從文章集合{N}中刪除該文章;最后將文章集合{M}重新添加到文章集合{A}中。
本發(fā)明還提供一種版式文件中圖文自動(dòng)關(guān)聯(lián)系統(tǒng),所述圖文自動(dòng)關(guān)聯(lián)系統(tǒng)包括:
圖片塊獲取器,用于從版式文件中獲取圖片塊,形成圖片塊集合;
文章獲取器,用于從從版式文件中獲取文章,形成文章集合;
圖片塊提取器,用于從反解版式文件后得到的圖片塊集合中取出一個(gè)與已取圖片塊不同的圖片塊,直至圖片塊集合中的所有圖片塊被取過(guò)一次;
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于北大方正集團(tuán)有限公司;北京方正阿帕比技術(shù)有限公司,未經(jīng)北大方正集團(tuán)有限公司;北京方正阿帕比技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810239369.2/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。





