[發明專利]一種公式查詢條件的輸入方法與裝置無效
| 申請號: | 201210135787.3 | 申請日: | 2012-05-03 |
| 公開(公告)號: | CN102663138A | 公開(公告)日: | 2012-09-12 |
| 發明(設計)人: | 林曉燕;高良才;湯幟;邱勤 | 申請(專利權)人: | 北京大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06K9/20 |
| 代理公司: | 北京萬象新悅知識產權代理事務所(普通合伙) 11360 | 代理人: | 蘇愛華 |
| 地址: | 100871*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 公式 查詢 條件 輸入 方法 裝置 | ||
1.一種公式查詢條件的輸入方法,包括如下步驟:
1)用戶通過截取屏幕區域的方式,選定當前文檔中需要檢索的公式區域;
2)如果當前文檔為版式文檔,則進行版式文檔符號識別;否則,進行圖像文檔符號識別;
3)根據公式符號對公式的布局結構和邏輯結構進行分析,將布局結構和邏輯結構分析結果輸出到公式的結構描述文件中,并作為公式搜索引擎的查詢輸入;
步驟2)中所述版式文檔符號識別的實現方法為:
2.1)首先,對文檔進行解析,獲得文檔頁內容;然后,獲取復合公式符號;最后,根據用戶在步驟1)中選定的公式區域,獲取該區域內的公式符號,并且保存這些符號的信息M;
步驟2)中所述圖像文檔符號識別的實現方法為:
2.2)對文檔圖像進行圖像預處理、符號分割以及符號識別,根據在步驟1)中選定的公式區域,獲取該區域內的公式符號,并且保存這些符號的信息M。
2.如權利要求1所述的輸入方法,其特征是,步驟3)的實現方法如下:
3.1)預處理:根據符號識別結果,獲取由多個符號組成的公式元素;
3.2)結構分析:分析3.1)得到的符號和元素之間的布局結構和邏輯結構;
3.3)輸出結構化格式:將公式結構分析結果以結構化描述格式輸出,并作為公式搜索引擎的查詢輸入。
3.如權利要求1所述的輸入方法,其特征是,所述文檔頁內容,包括:文本、圖形、圖像對象;所述獲取復合公式符號,指將文檔解析獲得的文本、圖形、圖像對象,映射成公式中的符號;所述符號的信息M,包括:編碼、基線、位置、邊框、字體。
4.如權利要求2所述的輸入方法,其特征是,步驟3.2)中,布局結構分析負責識別公式中符號間的布局關系,用公式符號的布局位置關系樹表示;邏輯結構分析負責將公式符號間的運算關系識別出來,然后將布局位置關系樹轉化為邏輯關系樹。
5.如權利要求1所述的輸入方法,其特征是,步驟3)中,用戶通過公式編輯器對公式結構分析結果進行查看并進行編輯修正,然后再作為公式搜索引擎的查詢輸入。
6.如權利要求1所述的輸入方法,其特征是,步驟1)中,通過截取屏幕區域的方式選擇需要查詢的公式區域,公式區域為文檔區域內的矩形框,具體地,用矩形框的左上角坐標和右下角坐標來表示。
7.如權利要求2所述的輸入方法,其特征是,步驟3.1)的實現方法為:判斷連續字符是否可以合并,若在同一基線上的連續數字字母符號串滿足以下合并條件:符號均為數字,且字體名稱、字體大小相同,符號間間隔小于符號大小的th倍,0<th<=0.5,則該連續符號可以合并;對于合并的符號串,若它們全都為數字符號,則判斷該符號串為數字,若合并的符號串與已知數學符號表中的函數相同,則判斷該符號串為數學函數;將判斷為數字和數學函數的符號串分別作為整體,作為數學公式元素,用于后續結構分析。
8.如權利要求2所述的輸入方法,其特征是,步驟3.2)中,采用基線法對數學公式進行結構分析,做法是:首先確定首符號,以首符號的基線作為公式的主基準線;從左到右依次處理基準線上的符號;根據每個符號所屬的符號類型確定符號的作用域;獲取每個作用域內的符號,并將該區域作為子公式區域遞歸分析;最終得到表示字符關系的基線樹結構的樹結構。
9.一種公式查詢條件的輸入裝置,包括:公式區域獲取模塊、符號識別模塊、公式結構分析模塊,其特征是,
所述公式區域獲取模塊:負責獲取用戶需要檢索的公式區域;
所述符號識別模塊:分別對不同文檔類型進行符號識別,包括版式文檔符號識別、圖像文檔符號識別;符號識別模塊除了識別符號身份,還將獲取符號的布局信息;該模塊最終輸出用戶選定的公式區域內的符號以及符號的布局信息;
所述公式結構分析模塊:根據公式區域及其中的符號,進行數學公式結構分析,并輸出到結構化描述格式,作為查詢條件發送給公式搜索引擎進行檢索;
所述公式結構分析模塊包括三個子模塊:預處理子模塊、結構分析子模塊及輸出結構化格式子模塊;其中,預處理子模塊負責識別由多個符號組成的公式元素;結構分析子模塊負責分析公式元素之間的布局關系和邏輯關系;輸出結構化格式子模塊負責將結構分析子模塊分析的結果輸出到便于檢索和顯示的結構化格式中。
10.如權利要求9所述的輸入裝置,其特征是,該裝置還包括用戶修正模塊,用戶使用該模塊對公式結構分析結果進行編輯。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學,未經北京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210135787.3/1.html,轉載請聲明來源鉆瓜專利網。





