[發明專利]文本分塊方法,裝置,存儲介質及電子設備有效
| 申請號: | 201811459532.6 | 申請日: | 2018-11-30 |
| 公開(公告)號: | CN109684610B | 公開(公告)日: | 2023-06-16 |
| 發明(設計)人: | 韓志剛 | 申請(專利權)人: | 東軟集團股份有限公司 |
| 主分類號: | G06F40/131 | 分類號: | G06F40/131;G06F40/194 |
| 代理公司: | 北京英創嘉友知識產權代理事務所(普通合伙) 11447 | 代理人: | 曾堯;魏嘉熹 |
| 地址: | 110179 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 分塊 方法 裝置 存儲 介質 電子設備 | ||
1.一種文本分塊方法,其特征在于,包括:
對第一文本和第二文本進行預分塊;
針對由所述第一文本中任一文字塊與所述第二文本中任一文字塊組成的文字塊對,判斷所述文字塊對之間是否存在文字匹配率大于預設閾值的子文字塊對;
若所述文字塊對之間存在文字匹配率大于所述預設閾值的子文字塊對,則將所述子文字塊對建立共通關系,得到所述第一文本和所述第二文本中對應的共通塊對;
分別將所述第一文本和所述第二文本中的相鄰兩個共通塊之間的文字劃分為新文字塊;
針對所述第一文本和所述第二文本中的所述新文字塊,重新執行確定共通塊對,以及基于共通塊對劃分新文字塊的步驟,直到滿足預設的停止分塊條件為止,得到所述第一文本和所述第二文本最終的分塊結果。
2.根據權利要求1所述的方法,其特征在于,在所述判斷所述文字塊對之間是否存在文字匹配率大于預設閾值的子文字塊對之前,所述方法還包括:
針對所述文字塊對中的第一文字塊和第二文字塊,從所述第一文字塊中劃分第一子文字塊,從所述第二文字塊中劃分第二子文字塊;
根據最大公共子序列算法確定所述第一子文字塊和所述第二子文字塊對中的最大公共子序列;
將所述最大公共子序列的長度與所述第一子文字塊的長度或者所述第二子文字塊的長度的比值作為所述文字塊對的文字匹配率。
3.根據權利要求1所述的方法,其特征在于,在將所述相鄰兩個共通塊之間的文字劃分為新文字塊之前,還包括:
確定所述相鄰兩個共通塊各自所屬的文字塊均不具有區域格式限制;
所述方法還包括:
若第一共通塊所屬的第一文字塊具有區域格式限制,且與所述第一共通塊相鄰的第二共通塊所屬的第二文字塊不具有區域格式限制,則將所述第一文字塊與所述第二共通塊之間存在的文字組成新文字塊;
若所述第一文字塊不具有區域格式限制,且所述第二文字塊具有區域格式限制,則將所述第一共通塊與所述第二文字塊之間存在的文字組成新文字塊;
若所述第一文字塊具有區域格式限制,且所述第二文字塊具有區域格式限制,則將所述第一文字塊與所述第二文字塊之間存在的文字組成新文字塊。
4.根據權利要求1至3中任一項所述的方法,其特征在于,所述針對所述第一文本和所述第二文本中的所述新文字塊,重新執行上述確定共通塊對,以及基于共通塊對劃分新文字塊的步驟,直到滿足預設的停止分塊條件為止,包括:
針對所述第一文本的每一新文字塊執行以下操作:
確定位于所述新文字塊兩側的第三共通塊和第四共通塊;
判斷所述第二文本中與所述第三共通塊具有共通關系的第五共通塊,以及與所述第四共通塊具有共通關系的第六共通塊之間,是否存在對應的待匹配的新文字塊;
若所述第一文本的每一新文字塊均不存在位于所述第二文本的對應的待匹配的新文字塊,則停止對所述第一文本和所述第二文本分塊。
5.根據權利要求4所述的方法,其特征在于,所述方法還包括:
若所述第一文本的第一新文字塊存在位于所述第二文本的對應的待匹配的第二新文字塊,則判斷所述第一新文字塊和所述第二新文字塊之間是否存在文字匹配率大于預設閾值的子文字塊對;
若所述第一文本和所述第二文本之間所有待匹配的新文字塊對之間,均不存在文字匹配率大于預設閾值的子文字塊對,則停止對所述第一文本和所述第二文本分塊。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東軟集團股份有限公司,未經東軟集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811459532.6/1.html,轉載請聲明來源鉆瓜專利網。





