[發明專利]目標對象文本段落劃分方法在審
| 申請號: | 202210182322.7 | 申請日: | 2022-02-25 |
| 公開(公告)號: | CN114564913A | 公開(公告)日: | 2022-05-31 |
| 發明(設計)人: | 何松山;陳德全 | 申請(專利權)人: | 盟浪可持續數字科技(深圳)有限責任公司 |
| 主分類號: | G06F40/103 | 分類號: | G06F40/103;G06F40/205;G06F40/289 |
| 代理公司: | 深圳市博太聯眾專利代理事務所(特殊普通合伙) 44354 | 代理人: | 任轉英 |
| 地址: | 518000 廣東省深圳市前海深港合作區前*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 目標 對象 文本 段落 劃分 方法 | ||
本發明公開了目標對象文本段落劃分方法,首先是從目標文本中提取關鍵詞,將文本中的一些無關的廢棄詞,和從若干個其他不相關領域中總結出來的通用型詞語,將其取出掉之后;按照相關規則,計算各個分散語句之間的相關性,計算完之后根據相關性首先進行大段劃分,得到若干個劃分大段,之后從大段內根據相關規則劃分小段,得到若干個劃分小段;最后自動進行文本格式整理,便于直觀瀏覽,完成目標文本的段落劃分。
技術領域
本發明涉及文本段落劃分技術領域,具體涉及目標對象文本段落劃分方法。
背景技術
公開號為CN110674635A的專利公開了一種用于文本段落劃分的方法和裝置。該方法的一具體實施方式包括:計算各自然段之間的相似度數值,然后計算所述相似度數值的平均值,再基于門檻值進行大段落劃分;對所述大段落分別進行詞語特征值計算,并計算所述大段落中特征值最大的n 個共同詞的熵;基于所述相似度數值的平均值進行門檻值滑動,通過不同的門檻值分別計算所述共同詞的熵,取所述熵最小的劃分結果為最優劃分。該實施方式有利于提高段落相似性的門檻值確定的準確性,從而提高文本段落劃分的準確性。
同樣公開號為CN101876967A的專利也公開了一種PDF文本段落生成的方法,該方法包括:A.識別并提取PDF文本的文字塊;B.剔除不同層中重復的文字塊,并且確定文本行,所確定的文本行組成文本行集合;C. 將文本行集合進行水平方向劃分,得到一個或多個第一文本;然后對第一文本集合中的每個第一文本分別進行垂直方向劃分,分別得到一個或多個第二文本,提取一個或多個第二文本之間的空白區域以組成空白區域集合;D.合并第一文本集合中兩相鄰的第一文本,以得到文本排版行;E. 劃分合并后的文本排版行,以形成文本排版列和文本段落。實施本發明的技術方案,經過該方法處理過的文本結構易生成RTF格式,效果好,且可編輯度高;另外,該方法是自動排版,無需人工干預。
但是上述兩種劃分方式中,缺乏一種合理的大小范圍劃定方式,而且劃定方式中,如何確定關鍵詞,怎么判定屬于大范圍,怎么屬于小范圍,便于瀏覽人員直觀判定,缺乏一種合理方案,基于此,提供一種解決方案。
發明內容
本發明的目的在于提供目標對象文本段落劃分方法;
本發明的目的可以通過以下技術方案實現:
目標對象文本段落劃分方法,
目標對象文本段落劃分方法,該方法具體包括下述步驟:
步驟一:首先進行大段劃分,大段劃分具體方式為:
S01:令i=1,獲取到H11,自動計算H11和H21之間的均值,也就是以第一個核算段來算,第二個核算段與第一個核算段之間的相似值,然后再以第二個核算段來算,第一個核算段與第二個核算段之間的相似值,計算二者均值,得到相似均值;
S02:若相似均值≤X2,則表示屬于在同一個大段內;X2位預設數值;否則跳轉至步驟S05;
S03:之后獲取到下一個核算段,也就是第三個核算段,獲取到H12 和H31之間的均值,代入到步驟S02的判定過程;
S04:依次獲取下一個核算段,并重復步驟S02的判定;
S05:自動將前面的核算段標記為一個核算大段;
S06:獲取到核算大段后的第一個核算段,按照步驟S01-S05的原理,得到下一個核算大段;
S07:重復步驟S06,得到所有的核算大段;
步驟二:之后進行小段劃分,小段劃分原理具體與大段劃分方式類似,僅將相似均值的判定方式修改為:相似均值≤X3,根據判定將核算大段劃分為一個個小的核算小段;
步驟三:得到若干個劃分大段,若干個劃分大段內包括若干個劃分小段;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于盟浪可持續數字科技(深圳)有限責任公司,未經盟浪可持續數字科技(深圳)有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210182322.7/2.html,轉載請聲明來源鉆瓜專利網。





