[發(fā)明專利]一種版式文件圖文自動關聯的方法及系統有效
| 申請?zhí)枺?/td> | 200810239369.2 | 申請日: | 2008-12-11 |
| 公開(公告)號: | CN101419717A | 公開(公告)日: | 2009-04-29 |
| 發(fā)明(設計)人: | 徐劍波;董寧;王輝 | 申請(專利權)人: | 北大方正集團有限公司;北京方正阿帕比技術有限公司 |
| 主分類號: | G06T11/60 | 分類號: | G06T11/60 |
| 代理公司: | 北京同達信恒知識產權代理有限公司 | 代理人: | 郭潤湘 |
| 地址: | 100871北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 版式 文件 圖文 自動 關聯 方法 系統 | ||
1.一種版式文件圖文自動關聯方法,其特征在于,該方法包括:
A:從版式文件中獲取圖片塊集合{P}和文章集合{A};
B:從反解版式文件后得到的圖片塊集合{P}中取出一個與已取圖片塊不同的圖片塊;
C:依次獲取文章集合{A}中的文章,比較獲取得到的文章是否與步驟B中取出的圖片塊近鄰,如果沒有文章與圖片塊近鄰,直接轉至步驟D;否則,則將此圖片塊設置為該文章的附圖;
D:重復以上步驟,直至圖片塊集合{P}中的所有圖片塊被取過一次;
其中,在文章集合{A}中查找與圖片塊近鄰的文章;比較獲取得到的文章是否與取出的圖片塊近鄰具體操作為:
(1.1)設置獲取得到的圖片塊為P1,獲取得到的文章為A1;新建文字塊集合{T},從文章A1中獲取文章的引題,標題,副題所對應的文字塊,放置在文字塊集合集合{T}中;
(1.2)依次獲取文字塊集合{T}中的文字塊,設為T1,查看圖片塊P1是否與文字塊T1近鄰;如果近鄰條件成立,記錄圖片塊P1與文章的重疊度;如果近鄰條件不成立,繼續(xù)從文字塊集合{T}中獲取下一個文字塊,繼續(xù)同該圖片塊P1進行比較是否近鄰;如果圖片塊P1和文字塊集合{T}中任何一個文字塊都不存在近鄰的關系,那么執(zhí)行步驟(1.3);
(1.3)比較圖片塊P1是否與文章正文近鄰:新建文字塊集合{L},如果文章正文對應的文字塊的子塊個數大于1,則獲取得到該正文對應的文字塊的所有子塊,并放置在集合{L}中,依次獲取集合{L}中的文字塊,設為T1,查看圖片塊P1與文字塊T1是否近鄰;否則比較文章正文對應的文字塊T1同圖片塊P1是否近鄰;如果近鄰條件成立,記錄圖片塊P1與文章的重疊度;
其中,步驟(1.2)中查看圖片塊P1是否與文字塊T1近鄰的方法如下:
版面平均字體大小為所有的文字塊的字號的平均值,設置為AvgFontSize;?
設取到的圖片塊P1的左上角坐標為(X1,Y1),右下角坐標為(X1’,Y1’);圖片塊P1的寬度為W1=X1’X1,圖片塊P1的高度H1=Y1’-Y1;
獲取到的文字塊T1左上角坐標為(X2,Y2),右下角坐標為(X2’,Y2’);文字塊T1的寬度為W2=X2’-X2,文字塊T1的高度H2=Y2’-Y2,文字塊T1的字體大小為f;
然后進行如下操作:
(1.2.1)計算圖片塊P1與文字塊T1近鄰的有效距離:
DistThreshold=C1*AvgFontSize+f*C2;
其中C1和C2為圖片塊P1與文字塊T1近鄰的調節(jié)系數,1<C1<5,0.1<C2<0.5;在實際的應用過程中,根據實際的需要調節(jié)C1和C2,得到圖片塊P1與文字塊T1近鄰的有效距離;
(1.2.2)計算圖片塊P1與文字塊T1的重疊度:
垂直方向上的重疊度:
OverlapY=(min(Y1’,Y2’)-max(Y1,Y2))/(max(Y1’,Y2’)-min(Y1,Y2));
水平方向上的重疊度:
OverlapX=(min(X1’,X2’)-max(X1,X2))/(max(X1’,X2’)-min(X1,X2));
(1.2.3)計算圖片塊P1與文字塊T1最小重疊度:
水平方向上的最小重疊是:
OverlapXMin=(min(X1’,X2’)-max(X1,X2))/min(X1’-X1,X2’-X2);
垂直方向上的最小重疊度:
OverlapYMin=(min(Y1’,Y2’)-max(Y1,Y2))/min(Y1’Y1,Y2’-Y2);
(1.2.4)計算文字塊T1與圖片塊P1的重疊距離:
水平方向上的重疊距離DistX:
DistX=max(X1,X2)-min(X1’,X2’);
垂直方向上的重疊距離DistY:
DistY=max(Y1,Y2)-min(Y1’,Y2’);?
其中max(a,b)表示取兩者的較大值,min(a,b)表示取兩者的較小值;
(1.2.5)判定如下條件是否其中一項成立:
a?1.OverlapX>Dx且OverlapY>Dy;
b?1.OverlapXMin>Dxmin且OverlapY>Dy;
c?1.OverlapYMin>Dymin且OverlapX>Dx;
d?1.OverlapYMin>Dymin??且OverlapXMin??>Dxmin??且(X2’-X2)>C*AvgFontSize;其中C為文字塊T1與圖片塊P1近鄰的調節(jié)系數,2<C<8;
e1.文章標題對應的文字塊的排版類型為水平排版時,且OverlapX>0且OverlapXMin>Dxmin且DistY<DistThreshold且Y2<Y1;
f1.文章標題對應的文字塊的排版類型為垂直排版時,且OverlapY>0且OverlapYMin>Dymin且DistY<DistThreshold;
如果以上條件任何一項都成立,則表示圖片塊P1與文字塊T1近鄰;近鄰成立的時候記錄圖片塊P1與文章的重疊度;文章A1標題對應的文字塊的排版類型為水平排版時,那么圖片塊P1與文章的重疊度為OverlapX,文章A1標題對應的文字塊的排版類型為垂直排版時,圖片塊P1與文章的重疊度為OverlapY;
其中,步驟(1.3)中查看圖片塊P1與文字塊T1是否近鄰的方法具體為:
(1.3.1)計算圖片塊P1與文字塊T1近鄰的有效距離:
DistThreshold=C1*AvgFontSize;
其中C1為圖片塊P1與文字塊T1近鄰的調節(jié)系數,1<C1<5;在實際的應用過程中,根據實際的需要調節(jié)C1,得到圖片塊P1與文字塊T1近鄰的有效距離;
(1.3.2)利用步驟(1.2.2)的方法,計算圖片塊P1與文字塊T1重疊度,得到OverlapY和OverlapX;
(1.3.3)利用步驟(1.2.3)的方法,計算圖片塊P1與文字塊T1最小重疊?度,得到OverlapXMin和OverlapYMin;
(1.3.4)判定如下條件是否其中一項成立:
a2.OverlapX>Dx且OverlapY>Dy;
b2.OverlapXMin>Dxmin且OverlapY>Dy;
c2.OverlapYMin>Dymin且OverlapX>Dx;
d2.OverlapX>Dx且OverlapY>Dy且OverlapXMin*OverlapYMin>Dxymin且OverlapX*OverlapY>Dxy;
e2.OverlapXMin>Dxmin且OverlapYMin>Dymin;
如果以上條件任何一項都成立,則表示圖片塊P1與文字塊T1近鄰;近鄰成立的時候記錄圖片塊P1與文章的重疊度;重疊度為OverlapX和OverlapY中最大的一個;
所述步驟(1.2.5)和(1.3.4)中,Dx和Dy為文字塊T1與圖片塊P1之間水平和垂直方向上的近鄰重疊系數,0<Dx<1,0<Dy<1;Dxmin和Dymin為文字塊T1與圖片塊P1之間水平和垂直方向上的最小近鄰重疊系數,0<Dxmin<1,0<Dymin<1;所述步驟(1.3.4)中,Dxymin為最小公共重疊系數,0<Dxymin<1;Dxy為公共重疊系數,0<Dxy<1;在實際的應用過程中,根據實際的需要調節(jié)以上系數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北大方正集團有限公司;北京方正阿帕比技術有限公司,未經北大方正集團有限公司;北京方正阿帕比技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810239369.2/1.html,轉載請聲明來源鉆瓜專利網。





