[發明專利]一種法律文書的分段方法及裝置有效
| 申請號: | 201710081315.7 | 申請日: | 2017-02-15 |
| 公開(公告)號: | CN108427667B | 公開(公告)日: | 2021-08-10 |
| 發明(設計)人: | 石鵬;魏康 | 申請(專利權)人: | 北京國雙科技有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/216;G06Q50/18 |
| 代理公司: | 北京鼎佳達知識產權代理事務所(普通合伙) 11348 | 代理人: | 王偉鋒;劉鐵生 |
| 地址: | 100083 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 法律文書 分段 方法 裝置 | ||
本發明公開了一種法律文書的分段方法及裝置,涉及計算機技術領域,主要目的是用于提高法律文書分段的準確性。所述方法包括:提取法律文書的語義特征,設置所述語義特征屬于不同語義段的權重值,根據所述法律文書中每個自然段所包含的語義特征以及所述語義特征屬于不同語義段的權重值,得到所述法律文書中每個自然段屬于不同語義段的概率值,采用動態規劃算法從所述概率值中選取分段組合概率最大值對應的分段路徑作為所述法律文書的分段路徑。本發明主要用于對法律文書的分段。
技術領域
本發明涉及計算機技術領域,尤其是一種法律文書的分段方法及裝置。
背景技術
法律文書是司法行政機關及當事人、律師等在解決訴訟和非訟案件時使用的文書,也包括司法機關的非規范性文件。目前,國內的法律文書主要類型包含民事、刑事、行政等類型案件。
由于法律文書中涉及的內容多種多樣,目前對法律文書的解析有很大一部分工作是在法律文書中查找關鍵信息點,為了能夠提高信息查詢的準確性和信息查找的效率,通常的做法是預先將法律文書分為若干個語義段,進而方便在每個語義段中查找關鍵信息點,這里的語義段為法律文書中表達相同主題的單個或者多個自然段。
現有技術通常是對法律文書中每個自然段進行特征詞匹配或者正則匹配,然后根據匹配的結果實現對法律文書進行分段,然而,由于在進行匹配的過程中經常會有干擾信息的出現,使得匹配結果有誤差,進而導致法律文書的分段結果不理想。
發明內容
鑒于上述問題,提出了本發明以便提供一種克服上述問題或者至少部分地解決上述問題的一種法律文書的分段方法及裝置,能夠提高法律文書分段的準確性。
一方面,本發明提供了一種法律文書的分段方法,包括:
提取法律文書的語義特征;
設置所述語義特征屬于不同語義段的權重值;
根據所述法律文書中每個自然段所包含的語義特征以及所述語義特征屬于不同語義段的權重值,得到所述法律文書中每個自然段屬于不同語義段的概率值;
采用動態規劃算法從所述概率值中選取分段組合概率最大值對應的分段路徑作為所述法律文書的分段路徑。
進一步地,所述根據所述法律文書中每個自然段所包含的語義特征以及所述語義特征屬于不同語義段的權重值,得到所述法律文書中每個自然段屬于不同語義段的概率值包括:
統計所述法律文書中每個自然段所包含的語義特征,得到每個語義特征出現在不同自然段的頻率;
根據所述每個語義特征出現在不同自然段的頻率以及該語義特征屬于不同語義段的權重值,得到所述法律文書中每個自然段屬于不同語義段的概率值。
進一步地,所述采用動態規劃算法從所述概率值中選取分段組合概率最大值對應的分段路徑作為所述法律文書的分段路徑包括:
根據所述每個自然段屬于不同語義段的概率值,得到概率值矩陣;
將所述概率矩陣作為輸入參數,采用動態規劃算法計算分段組合概率;
選取所述分段組合概率最大值對應的分段路徑作為所述法律文書的分段路徑。
進一步地,在所述提取法律文書的語義特征之前,所述方法還包括:
利用法律文書樣本中的文書結構歸納語義段集合,所述語義段集合中包含用于表征法律文書中不同主題內容的多個語義段。
進一步地,所述設置所述語義特征屬于不同語義段的權重值包括:
根據統計語義特征在不同語義段出現的歷史次數,設置所述語義特征屬于不同語義段的權重值。
另一方面,本發明提供一種法律文書的分段裝置,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京國雙科技有限公司,未經北京國雙科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710081315.7/2.html,轉載請聲明來源鉆瓜專利網。





