[發明專利]流量模板確定方法、流量信息識別方法及裝置有效
| 申請號: | 201610410508.8 | 申請日: | 2016-06-12 |
| 公開(公告)號: | CN107493370B | 公開(公告)日: | 2020-08-04 |
| 發明(設計)人: | 李斌;張俊駿;鄭恒 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | H04W4/14 | 分類號: | H04W4/14;H04W4/24;H04W24/08 |
| 代理公司: | 北京展翅星辰知識產權代理有限公司 11693 | 代理人: | 王文生 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 流量 模板 確定 方法 信息 識別 裝置 | ||
1.一種流量模板確定方法,包括:
確定多條流量語料樣本之間的相同內容以及差別內容;
根據所述相同內容以及所述差別內容形成多個流量模板;
其中,所述確定多條流量語料樣本之間包含的相同內容以及差別內容包括:
根據流量語料樣本集合中流量語料樣本間的相似度,從流量信息樣本集合中選取相似度滿足第一預定相似度要求的多條流量語料樣本;
獲取所述多條流量語料樣本之間的相同內容;
從所述多個流量語料樣本中的每個流量語料樣本中分別去掉所述相同內容,得到所述差別內容;
將所述相同內容設置在流量模板中,將所述多條流量語料樣本各自不同的差別內容以并列擇一的方式設置在流量模板中;
將所述形成的流量模板加入流量模板集合中。
2.根據權利要求1所述的方法,其中,在確定多條流量信息樣本之間的相同內容以及差別內容的步驟之前,所述方法還包括:
對流量語料進行以下至少之一的預處理,以形成流量語料樣本:
將流量語料中的中文標點符號轉換為英文標點符號;
根據預設的非法字符集去除流量語料中的非法字符;
將流量語料中的數字以及該數字的流量單位替換為特定字符。
3.根據權利要求2所述的方法,其中,所述相似度包括編輯距離,第一預定相似度要求包括:針對流量信息樣本集合中的一個流量信息樣本,與該流量信息樣本的編輯距離小于第一編輯距離閾值、不為零、且是各編輯距離中的最小編輯距離。
4.根據權利要求1所述的方法,其中,所述根據所述相同內容以及所述差別內容形成多個流量模板的步驟包括:
根據所述相同內容以及所述差別內容形成正則表達式,其中所述相同內容包括至少一個公共字符串,所述差別內容包括至少一個差別字符串,所述正則表達式中的公共字符串和差別字符串交叉排列,且不同流量信息樣本中的差別字符串以并列擇一的方式設置。
5.根據權利要求4所述的方法,其特征在于,所述根據所述相同內容以及所述差別內容形成多個流量模板的步驟還包括:
將所述正則表達式中的表征數字以及數字的流量單位的信息替換為表示流量取值范圍的信息。
6.根據權利要求4所述的方法,其特征在于,所述根據所述相同內容以及所述差別內容形成多個流量模板的步驟還包括:
刪除所述正則表達式中的未包含有數字和流量單位的語句。
7.根據權利要求1至6中任一權利要求所述的方法,其中,所述將所述形成的流量模板加入流量模板集合中的步驟包括:
從流量模板集合中選取與所述形成的流量模板的相似度滿足第二預定相似度要求的流量模板;
將所述形成的流量模板與所述選取的流量模板融合為一個流量模板加入流量模板集合中。
8.根據權利要求7所述的方法,其中,所述相似度包括:編輯距離,第二預定相似度要求包括:與所述形成的流量模板的編輯距離小于第二編輯距離閾值、不為零、且是各編輯距離中的最小編輯距離。
9.根據權利要求7所述的方法,其中,所述流量模板為正則表達式,且所述將所述形成的流量模板與所述選取的流量模板融合為一個流量模板加入流量模板集合中的步驟包括:
確定所述形成的流量模板的正則表達式和所述選取的流量模板的正則表達式之間的相同內容以及對于所述形成的流量模板的正則表達式和所述選取的流量模板的正則表達式之間的差別內容;
將所述相同內容設置在融合后的流量模板中,將所述對于所述形成的流量模板的正則表達式和所述選取的流量模板的正則表達式各自不同的差別內容以并列擇一的方式設置在融合后的流量模板中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610410508.8/1.html,轉載請聲明來源鉆瓜專利網。





