[發明專利]模板構建方法、信息提取方法及裝置有效
| 申請號: | 201510498399.5 | 申請日: | 2015-08-13 |
| 公開(公告)號: | CN105183721B | 公開(公告)日: | 2018-05-25 |
| 發明(設計)人: | 汪平仄;陳志軍;龍飛 | 申請(專利權)人: | 小米科技有限責任公司 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28;G06F17/30 |
| 代理公司: | 北京三高永信知識產權代理有限責任公司 11138 | 代理人: | 張所明 |
| 地址: | 100085 北京市海淀區清*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 原始信息 匹配 模板組 信息項 模板構建 信息提取 樣本集 短信 集合 自然語言處理 優先級排序 提取信息 構建 攜帶 | ||
本公開揭示了一種模板構建方法、信息提取方法及裝置,屬于自然語言處理領域。所述方法包括:獲取原始信息樣本集,原始信息樣本集包括至少一條原始信息;對于每條原始信息,構建與原始信息的特征所對應的提取模板;按照每個提取模板所匹配的原始信息集合之間的集合關系對提取模板進行優先級排序,得到與原始信息的特征所對應的提取模板組;使用該提取模板組進行信息項提取。本公開解決了在短信攜帶的信息項較為密集時,從短信中提取出各個信息項時的準確性較差的問題;達到了匹配較為精準的提取模板在提取模板組中的優先級較高,優先采用匹配較為精準的提取模板對原始信息進行匹配和提取,能夠提高提取信息項時的準確性的效果。
技術領域
本公開涉及自然語言處理領域,特別涉及一種模板構建方法、信息提取方法及裝置。
背景技術
在用戶成功預定航班后,訂票系統通常向用戶的移動終端發送攜帶有航班信息的短信。
航班信息包括有:航班號、出發城市、出發機場、出發日期、出發時間、到達城市、到達機場、到達日期、到達時間等多個信息項。由于該類短信攜帶的信息項較為密集,相關的從短信中提取出各個信息項時的準確性較差。
發明內容
為了解決現有技術中的問題,本公開提供一種模板構建方法、信息提取方法及裝置。所述技術方案如下:
根據本公開實施例的第一方面,提供一種模板構建方法,該方法包括:
獲取原始信息樣本集,原始信息樣本集包括至少一條原始信息;
對于每條原始信息,構建與原始信息的特征所對應的提取模板,不同的原始信息具有相同或不同的特征;
在與原始信息的特征所對應的提取模板為至少兩個時,按照每個提取模板所匹配的原始信息集合之間的集合關系對提取模板進行優先級排序,得到與原始信息的特征所對應的提取模板組。
在一個可選的實施例中,在與原始信息的特征所對應的提取模板為至少兩個時,按照每個提取模板所匹配的原始信息集合之間的集合關系對提取模板進行排序,得到與原始信息的特征所對應的提取模板組,包括:
在與原始信息的特征所對應的提取模板為至少兩個時,對于任意兩個提取模板中的第一提取模板和第二提取模板,獲取第一提取模板所匹配的原始信息集合與第二提取模板所匹配的原始信息集合的集合關系;
若第一提取模板所匹配的原始信息集合是第二提取模板所匹配的原始信息集合的真子集,則確定第一提取模板的優先級高于第二提取模板的優先級。
在一個可選的實施例中,該方法還包括:
若第一提取模板所匹配的原始信息集合與第二提取模板所匹配的原始信息集合相等,則刪除第一提取模板和第二提取模板中的任意一個。
在一個可選的實施例中,對于每條原始信息,構建與原始信息的特征所對應的提取模板,包括:
獲取原始信息的發送方標識特征和/或原始信息中的關鍵詞;
根據原始信息中的信息項的排布特征構建提取模板;
建立發送方標識特征和/或關鍵詞與提取模板之間的對應關系。
在一個可選的實施例中,提取模板采用上下文無關文法表達,提取模板包括至少一個非終結符,每個非終結符用于匹配一個信息項。
根據本公開實施例的第二方面,提供了一種信息提取方法,該方法包括:
獲取原始信息;
查詢與原始信息的特征對應的提取模板組,提取模板組包括按照優先級排序的至少兩個提取模板,優先級是按照每個提取模板所匹配的原始信息集合之間的集合關系排序的;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于小米科技有限責任公司,未經小米科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510498399.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種數據分頁方法及裝置
- 下一篇:尋找相近語義漢字對的方法和裝置





