[發明專利]法律條文提取方法、裝置及計算機可讀存儲介質在審
| 申請號: | 201810276834.3 | 申請日: | 2018-03-30 |
| 公開(公告)號: | CN108491536A | 公開(公告)日: | 2018-09-04 |
| 發明(設計)人: | 李曉輝 | 申請(專利權)人: | 北京智慧正安科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 深圳市舜立知識產權代理事務所(普通合伙) 44335 | 代理人: | 侯藝 |
| 地址: | 100000 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 字符串 法律條文 正文信息 基礎信息 法律 計算機可讀存儲介質 解析 法律信息 網頁信息 分類 去除 存儲 篩選 保留 轉換 | ||
1.一種法律條文提取方法,其特征在于,包括以下步驟:
轉換含有法律信息的網頁信息為初始字符串;
篩選去除所述初始字符串中的部分html標簽,保留具有標識的html標簽;
獲取法律的基礎信息對應的字符串和法律的正文信息對應的字符串;
根據具有標識的html標簽分別對法律的基礎信息對應的字符串和法律的正文信息對應的字符串的信息進行分類;
解析分類后法律的正文信息對應的字符串的信息;
分別存儲解析后的法律的基礎信息對應的字符串的信息和法律的正文信息對應的字符串的信息。
2.如權利要求1所述的法律條文提取方法,其特征在于,獲取法律的基礎信息對應的字符串和法律的正文信息對應的字符串的步驟具體包括以下步驟:
查找所述初始字符串中的標志性詞匯;
截取對應的法律基礎信息的字符串;
查找正文標題;
截取對應的法律正文信息的字符串。
3.如權利要求2所述的法律條文提取方法,其特征在于,根據具有標識的html標簽分別對法律的基礎信息對應的字符串和法律的正文信息對應的字符串的信息進行分類的步驟具體包括以下步驟:
讀取具有標識的html標簽的位置信息和屬性信息;
對法律的基礎信息對應的字符串和法律的正文信息對應的字符串的信息進行依次分類。
4.如權利要求2所述的法律條文提取方法,其特征在于,解析分類后法律的正文信息對應的字符串的信息的步驟具體包括以下步驟:
判斷正文信息對應的字符串的信息中是否有編章條款序號,若是,通過編章條款序號按條對應截取正文信息的字符串。
5.如權利要求2所述的法律條文提取方法,其特征在于,解析分類后法律的正文信息對應的字符串的信息的步驟具體包括以下步驟:
判斷正文信息對應的字符串的信息中是否有數字分類序號,若是,通過編號和對應的具有標識的html標簽進行按條截取正文信息的字符串。
6.如權利要求4或5所述的法律條文提取方法,其特征在于,解析分類后法律的正文信息對應的字符串的信息的步驟還具體包括以下步驟:
根據截取的每條正文信息的字符串中的標點符號和‘<br/>’標簽的位置,判斷該條正文信息的款項數量;
將正文信息根據款項數量進行分別存儲。
7.如權利要求6所述的法律條文提取方法,其特征在于,解析分類后法律的正文信息對應的字符串的信息的步驟具體包括以下步驟:
判斷是否有數字分類序號和編章條款序號,若無,截取正文信息對應的一整條字符串信息,通過標點符號和具有標識的html標簽進行劃分正文信息的段落。
8.如權利要求5所述的法律條文提取方法,其特征在于,所述標志性詞匯包括發布部門、發文字號、發布日期、實施日期、時效性、及效力級別。
9.一種法律條文提取裝置,其特征在于,所述法律條文提取裝置包括:存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的法律條文提取程序,其中:
所述法律條文提取程序被所述處理器執行時實現如權利要求1至8中任一項所述的法律條文提取方法的步驟。
10.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質上存儲有法律條文提取程序,所述法律條文提取程序被處理器執行時實現如權利要求1至8中任一項所述的法律條文提取方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京智慧正安科技有限公司,未經北京智慧正安科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810276834.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:信息的分類存儲方法及裝置
- 下一篇:用戶偏好信息處理方法、裝置、設備及介質





