[發明專利]模板構建方法、信息提取方法及裝置有效
| 申請號: | 201510498399.5 | 申請日: | 2015-08-13 |
| 公開(公告)號: | CN105183721B | 公開(公告)日: | 2018-05-25 |
| 發明(設計)人: | 汪平仄;陳志軍;龍飛 | 申請(專利權)人: | 小米科技有限責任公司 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28;G06F17/30 |
| 代理公司: | 北京三高永信知識產權代理有限責任公司 11138 | 代理人: | 張所明 |
| 地址: | 100085 北京市海淀區清*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 原始信息 匹配 模板組 信息項 模板構建 信息提取 樣本集 短信 集合 自然語言處理 優先級排序 提取信息 構建 攜帶 | ||
1.一種模板構建方法,其特征在于,所述方法包括:
獲取原始信息樣本集,所述原始信息樣本集包括至少一條原始信息;
對于每條所述原始信息,構建與所述原始信息的特征所對應的提取模板,不同的所述原始信息具有相同或不同的特征;
在與所述原始信息的特征所對應的所述提取模板為至少兩個時,按照每個所述提取模板所匹配的原始信息集合之間的集合關系對所述提取模板進行優先級排序,得到與所述原始信息的特征所對應的提取模板組。
2.根據權利要求1所述的方法,其特征在于,所述在與所述原始信息的特征所對應的所述提取模板為至少兩個時,按照每個所述提取模板所匹配的原始信息集合之間的集合關系對所述提取模板進行優先級排序,得到與所述原始信息的特征所對應的提取模板組,包括:
在與所述原始信息的特征所對應的所述提取模板為至少兩個時,對于任意兩個所述提取模板中的第一提取模板和第二提取模板,獲取所述第一提取模板所匹配的原始信息集合與所述第二提取模板所匹配的原始信息集合的集合關系;
若所述第一提取模板所匹配的原始信息集合是所述第二提取模板所匹配的原始信息集合的真子集,則確定所述第一提取模板的優先級高于所述第二提取模板的優先級。
3.根據權利要求2所述的方法,其特征在于,所述方法還包括:
若所述第一提取模板所匹配的原始信息集合與所述第二提取模板所匹配的原始信息集合相等,則刪除所述第一提取模板和所述第二提取模板中的任意一個。
4.根據權利要求1至3任一所述的方法,其特征在于,所述對于每條所述原始信息,構建與所述原始信息的特征所對應的提取模板,包括:
獲取所述原始信息的發送方標識特征和/或所述原始信息中的關鍵詞;
根據所述原始信息中的信息項的排布特征構建提取模板;
建立所述發送方標識特征和/或所述關鍵詞與所述提取模板之間的對應關系。
5.根據權利要求1至3任一所述的方法,其特征在于,每個所述提取模板采用上下文無關文法表達,每個所述提取模板包括至少一個非終結符,每個所述非終結符用于匹配一個信息項。
6.一種信息提取方法,其特征在于,所述方法包括:
獲取原始信息;
查詢與所述原始信息的特征對應的提取模板組,所述提取模板組包括按照優先級排序的至少兩個提取模板,所述優先級是按照每個所述提取模板所匹配的原始信息集合之間的集合關系排序的;
根據所述優先級將所述原始信息與所述提取模板組中尚未匹配的優先級最高的提取模板進行模板匹配,根據匹配結果從所述原始信息中提取信息項。
7.根據權利要求6所述的方法,其特征在于,所述查詢與所述原始信息的特征對應的提取模板組,包括:
獲取所述原始信息的發送方標識特征和/或所述原始信息中的關鍵詞;
查詢與所述發送方標識特征和/或所述關鍵詞所對應的提取模板組。
8.根據權利要求6或7所述的方法,其特征在于,每個所述提取模板采用上下文無關文法表達,每個所述提取模板包括至少一個非終結符,每個所述非終結符用于匹配一個信息項;
所述根據所述優先級將所述原始信息與所述提取模板組中尚未匹配的優先級最高的提取模板進行模板匹配,根據匹配結果從所述原始信息中提取信息項,包括:
從所述提取模板組中選擇出尚未匹配的優先級最高的提取模板;
將所述原始信息與所述提取模板組中尚未匹配的優先級最高的提取模板進行模板匹配;
判斷所述提取模板組中尚未匹配的優先級最高的提取模板中的每個所述非終結符是否匹配到對應的信息項;
若所述提取模板組中尚未匹配的優先級最高的提取模板中的每個所述非終結符均匹配到對應的信息項,則提取所述信息項;
若所述提取模板組中尚未匹配的優先級最高的提取模板中存在至少一個所述非終結符未匹配到對應的信息項,則重新執行所述從所述提取模板組中選擇出尚未匹配的優先級最高的提取模板的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于小米科技有限責任公司,未經小米科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510498399.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種數據分頁方法及裝置
- 下一篇:尋找相近語義漢字對的方法和裝置





