[發明專利]一種文本段落的抽取方法及裝置有效
| 申請號: | 201710958999.4 | 申請日: | 2017-10-16 |
| 公開(公告)號: | CN107679038B | 公開(公告)日: | 2021-05-28 |
| 發明(設計)人: | 李德彥;晉耀紅;席麗娜 | 申請(專利權)人: | 鼎富智能科技有限公司 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279;G06F40/205;G06F40/30 |
| 代理公司: | 北京弘權知識產權代理有限公司 11363 | 代理人: | 逯長明;許偉群 |
| 地址: | 230000 安徽省合肥市*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 段落 抽取 方法 裝置 | ||
1.一種文本段落的抽取方法,其特征在于,所述方法包括:
獲取文本;
創建與所述文本對應的模型樹,所述模型樹包括至少若干個節點和每個節點對應的抽取表達式集,所述抽取表達式集包括至少一個抽取表達式;
將所述模型樹的各個節點中滿足預設篩選規則的節點進行提取,生成定位節點集,其中,所述定位節點集包括至少一個前置定位節點和至少一個后置定位節點,所述預設的篩選規則為全節點篩選規則、子節點篩選規則或當前節點篩選規則;
將每個所述前置定位節點對應的抽取表達式集和每個所述后置定位節點對應的抽取表達式集,按照預設匹配規則,與所述文本進行匹配,得到起始信息和結束信息,其中,所述匹配規則包括前置匹配規則和后置匹配規則,所述前置匹配規則為前置最遠匹配規則或前置最近匹配規則,所述后置匹配規則為后置最遠匹配規則或后置最近匹配規則;
根據所述起始信息和結束信息,確定所述文本的段落;
抽取所述段落的文本信息;
當預設的篩選規則為當前節點篩選規則時,所述將所述模型樹的各個節點中滿足預設篩選規則的節點進行提取,生成定位節點集包括:
響應于用戶選擇所述節點的操作,將所述模型樹中所選的節點確定為目標節點,所述目標節點包括前置目標節點和后置目標節點;
將所述前置目標節點確定為前置定位節點;
將所述后置目標節點確定為后置定位節點;
根據所述前置定位節點和后置定位節點,生成定位節點集。
2.如權利要求1所述的方法,其特征在于,當每個所述前置定位節點按照前置最遠匹配規則,每個所述后置定位節點按照后置最遠匹配規則時,所述將每個所述前置定位節點對應的抽取表達式集和每個所述后置定位節點對應的抽取表達式集,按照預設匹配規則,與所述文本進行匹配,得到起始信息和結束信息包括:
將每個所述前置定位節點對應的抽取表達式集與所述文本進行匹配,得到至少一個前置匹配信息;
根據每個所述前置匹配信息在所述文本中的位置,將距離所述文本第一個字符最近的前置匹配信息確定為起始信息;
將每個所述后置定位節點對應的抽取表達式集與所述文本進行匹配,得到至少一個后置匹配信息;
根據每個所述后置匹配信息在所述文本中的位置,將位于所述起始信息之后且距離所述起始信息最遠的后置匹配信息確定為結束信息。
3.如權利要求1所述的方法,其特征在于,當每個所述前置定位節點按照前置最近匹配規則,每個所述后置定位節點按照后置最遠匹配規則時,所述將每個所述前置定位節點對應的抽取表達式集和每個所述后置定位節點對應的抽取表達式集,按照預設匹配規則,與所述文本進行匹配,得到起始信息和結束信息包括:
將每個所述前置定位節點對應的抽取表達式集與所述文本進行匹配,得到至少一個前置匹配信息;
根據每個所述前置匹配信息在所述文本中的位置,將距離所述文本第一個字符最遠的前置匹配信息確定為起始信息;
將每個所述后置定位節點對應的抽取表達式集與所述文本進行匹配,得到至少一個后置匹配信息;
根據每個所述后置匹配信息在所述文本中的位置,將位于所述起始信息之后且距離所述起始信息最遠的后置匹配信息確定為結束信息。
4.如權利要求1所述的方法,其特征在于,當每個所述前置定位節點按照前置最遠匹配規則,每個所述后置定位節點按照后置最近匹配規則時,所述將每個所述前置定位節點對應的抽取表達式集和每個所述后置定位節點對應的抽取表達式集,按照預設匹配規則,與所述文本進行匹配,得到起始信息和結束信息包括:
將每個所述前置定位節點對應的抽取表達式集與所述文本進行匹配,得到至少一個前置匹配信息;
根據每個所述前置匹配信息在所述文本中的位置,將距離所述文本第一個字符最近的前置匹配信息確定為起始信息;
將每個所述后置定位節點對應的抽取表達式集與所述文本進行匹配,得到至少一個后置匹配信息;
根據每個所述后置匹配信息在所述文本中的位置,將位于所述起始信息之后且距離所述起始信息最近的后置匹配信息確定為結束信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鼎富智能科技有限公司,未經鼎富智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710958999.4/1.html,轉載請聲明來源鉆瓜專利網。





