[發明專利]信息處理裝置和信息處理方法有效
| 申請號: | 201210380729.7 | 申請日: | 2012-10-09 |
| 公開(公告)號: | CN103218352B | 公開(公告)日: | 2017-11-10 |
| 發明(設計)人: | 今野裕也 | 申請(專利權)人: | 富士施樂株式會社 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京三友知識產權代理有限公司11127 | 代理人: | 李輝,王伶 |
| 地址: | 日本*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 信息處理 裝置 方法 | ||
技術領域
本發明涉及信息處理裝置和信息處理方法。
背景技術
日本特許第3578618號公報(專利文獻1)公開了一種文檔分割裝置,該文檔分割裝置通過不僅考慮相鄰文檔的關系而且考慮與該文檔相關聯的廣域的關系來實現有效分割文檔的目標,并且該文檔分割裝置設置有:語言要素分出單元,該語言要素分出單元用于以段落、句子以及行為單位從電子文檔中分出語言要素;語言要素間關聯度評估單元,該語言要素間關聯度評估單元用于評估任何兩個語言要素(例如,具有公共字符或者單詞)的關聯度;語言要素間關聯度矩陣取得單元,該語言間要素關聯矩陣取得單元通過利用這種語言要素間關聯度評估單元來取得全部語言要素的關聯度;以及矩陣拆分單元,該矩陣拆分單元用于將這種語言要素間關聯度矩陣取得單元提供的語言要素間關聯度矩陣分割為具有高關聯度的部分矩陣的排列。由此,可以與通過部分矩陣進行的拆分相應地來拆分文檔。
日本特許第3767180號公報(專利文獻2)公開了一種用于分析文檔結構的方法和裝置、以及存儲文檔結構分析程序的存儲介質,其目標在于即使當不包括項目標記或者未寫有特定標記等時也可以通過使用每個字符串的長度或者行首的位置信息來分析標記項目和文本中的簡單句的文檔結構,其中,輸入待分析的文檔,檢查在所述文檔的行首上是否存在引用符,當存在引用符時,刪除該引用符,檢測特定項目標記所要使用的包括文檔中的日期、場所、期限的字符串,并且基于檢測到的項目標記的特征來檢測任意項目標記,將檢測到所述項目標記的行的行首位置和未檢測到項目標記的后續行的行首位置指定為項目范圍,后續行與被判斷為項目范圍以外的行相連接,以句子為單位分割各行,將特定項目、任意項目以及指示句子的標簽附加至文檔并輸出。
發明內容
本發明的目的在于提供一種信息處理裝置,該信息處理裝置在將文檔中的區域分割為段落區域或者項目區域的情況下,在指示項目的字符與預定的字符不同時可以抑制錯誤分割。
根據本發明的第一方面,提供了一種信息處理裝置,該信息處理裝置包括:取得單元,該取得單元取得區域信息、行信息以及字符信息,該區域信息是與文檔中的區域有關的信息,該行信息是與區域中的行有關的信息,以及字符信息是與行中的字符有關的信息;判斷單元,該判斷單元基于所述取得單元取得的行信息來判斷包括該行信息所指示的行的區域是否左對齊;第一分割單元,該第一分割單元基于所述取得單元取得的字符信息,將包括該字符信息所指示的字符的區域分割為段落區域或者項目區域;分析單元,該分析單元分析所述判斷單元判斷為左對齊的區域內的行的縮進;第二分割單元,該第二分割單元基于所述分析單元的分析結果將所述判斷單元判斷為左對齊的所述區域分割為段落區域或者項目區域;以及輸出單元,該輸出單元針對所述判斷單元判斷為未左對齊的區域,輸出所述第一分割單元的分割結果,而針對所述判斷單元判斷為左對齊的區域,輸出所述第二分割單元的分割結果。
根據本發明的第二方面,在根據第一方面的信息處理裝置中,當作為對象的語言是沒有規定行尾對齊的語言時,所述判斷單元可基于與行信息所指示的行的下一行中的字符有關的字符信息來改變該行信息,隨后可以判斷包括該行信息指示的所述行的區域是否左對齊。
根據本發明的第三方面,在根據第一或者第二方面的信息處理裝置中,所述判斷單元可基于所述取得單元所取得的行信息,來計算所述行信息所指示的行的中點坐標,并且可以基于以下坐標中的一個或者更多個坐標來判斷所述區域是否左對齊:所述區域中的所述行的行首坐標、所述中點坐標以及行尾坐標。
根據本發明的第四方面,在根據第一方面至第三方面中的任一方面的信息處理裝置中,所述第一分割單元可基于位于行首或者行尾中的一個以上字符的字符串是否滿足預定的字符串條件,來將所述區域分割為段落區域或者項目區域。
根據本發明的第五方面,在根據第一方面至第四方面中的任一方面的信息處理裝置中,所述第一分割單元可以基于由所述區域中的行的字符數量所預定的值是否滿足預定條件,來將所述區域分割為段落區域或者項目區域。
根據本發明的第六方面,在根據第一方面至第五方面的任一方面的信息處理裝置中,所述分析單元可以通過基于從區域左端至該區域中各行的左端之間的距離,將各行分類為縮進行和未縮進行,來分析行的縮進。
根據本發明的第七方面,在根據第六方面的信息處理裝置中,第二分割單元可以基于行中包括的字符串中是否包括預定字符串以及作為所述分析單元的分析結果的分類邊界是否與所述段落的邊界重合,來將所述區域分割為段落區域或者項目區域。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于富士施樂株式會社,未經富士施樂株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210380729.7/2.html,轉載請聲明來源鉆瓜專利網。





