[發明專利]段落的劃分方法及裝置有效

申請號：	201711082718.X	申請日：	2017-11-07
公開（公告）號：	CN109753647B	公開（公告）日：	2022-11-04
發明（設計）人：	姜珂	申請（專利權）人：	北京國雙科技有限公司
主分類號：	G06F40/279	分類號：	G06F40/279
代理公司：	北京鼎佳達知識產權代理事務所(普通合伙) 11348	代理人：	王偉鋒;劉鐵生
地址：	100083 北京市海淀區***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	段落劃分方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開了一種段落的劃分方法及裝置，涉及信息處理技術領域，主要目的在于提高段落劃分的正確性、健壯性及魯棒性，本發明的主要技術方案包括：對待劃分文章進行向量化處理得到段落向量，所述段落向量為使用一個數組表示一個自然段；根據預先學習的段落分組模型，確定每個段落向量屬于所述段落分組模型中每個段落分組的概率，其中，所述段落分組中至少包含一個自然段；將每個段落向量以及對應的概率輸入隱馬爾科夫模型，以便根據每個段落向量以及對應的概率確定隱含參數；利用預設解碼算法對所述隱含參數進行解碼，得到每個段落屬于段落分組的最大概率，根據所述最大概率對所述待劃分文章執行段落劃分。

技術領域

本發明涉及信息處理技術領域，特別是涉及一種段落的劃分方法及裝置。

背景技術

隨著信息處理技術的發展，人們對信息的需求越來越高，例如，對裁判文書中段落的劃分。

目前，對裁判文書常用的段落劃分方法為通過枚舉方式，即枚舉每個段落中可能出現的預設關鍵字，當裁判文書中的自然段落中匹配到預設關鍵字后，將該自然段劃分到某個段落中，實現段落的劃分。發明人在實現上述發明過程中，發現現有技術中通過枚舉的方式執行段落劃分時，會存在枚舉不全面的問題，導致段落劃分的準確率較低，此外，當裁判文書或者預設關鍵字出錯時，不會智能對錯別字進行識別，使劃分段落的健壯性、魯棒性降低。

發明內容

有鑒于此，本發明提供的一種段落的劃分方法及裝置，主要目的在于提高段落劃分的正確性、健壯性及魯棒性。

為了解決上述問題，本發明主要提供如下技術方案：

第一方面，本發明提供了一種段落的劃分方法，包括：

對待劃分文章進行向量化處理得到段落向量，所述段落向量為使用一個數組表示一個自然段；

根據預先學習的段落分組模型，確定每個段落向量屬于所述段落分組模型中每個段落分組的概率，其中，所述段落分組中至少包含一個自然段；

將每個段落向量以及對應的概率輸入隱馬爾科夫模型，以便根據每個段落向量以及對應的概率確定隱含參數；

利用預設解碼算法對所述隱含參數進行解碼，得到每個段落屬于段落分組的最大概率，根據所述最大概率對所述待劃分文章執行段落劃分。

可選的，所述方法還包括：

獲取樣本文章中進行段落分組的標記，確定每個段落分組中的信息要素；

對所述信息要素進行訓練學習，得到訓練函數，形成段落分組模型。

可選的，對待劃分文章進行向量化處理得到段落向量包括：