[發明專利]關鍵詞過濾方法及裝置在審
| 申請號: | 201910272751.1 | 申請日: | 2019-04-04 |
| 公開(公告)號: | CN110110069A | 公開(公告)日: | 2019-08-09 |
| 發明(設計)人: | 項東東;吳峰;郭偉 | 申請(專利權)人: | 上海易點時空網絡有限公司 |
| 主分類號: | G06F16/335 | 分類號: | G06F16/335;G06F16/31 |
| 代理公司: | 北京卓唐知識產權代理有限公司 11541 | 代理人: | 唐海力 |
| 地址: | 200125 上海市浦東*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 關鍵詞過濾 過濾 自動機 狀態機 文本 關鍵詞集合 目標關鍵詞 調用 輸出 失敗 | ||
1.一種關鍵詞過濾方法,其特征在于,包括:
基于關鍵詞集合訓練一套自動機;
根據所述自動機指示的有限狀態機對待過濾文本進行關鍵詞過濾;
將過濾出的目標關鍵詞輸出至調用端。
2.根據權利要求1所述的方法,其特征在于,在根據所述自動機指示的有限狀態機對待過濾文本進行關鍵詞過濾時,所述方法還包括:
將所述關鍵詞集合中的第一關鍵詞與待過濾文本中的待過濾詞匯進行匹配,所述第一關鍵詞的第一個詞節點與所述待過濾詞匯的第一個詞節點相同,且在所述第一個詞節點后二者具有最多的順序分布一致的相同詞節點;
確定所述第一關鍵詞中與所述待過濾關鍵詞中第一個不匹配的失敗詞節點;
在所述關鍵詞集合中確定所述失敗詞節點指向的第二關鍵詞,所述第二關鍵詞中存在與所述失敗詞節點相同的詞節點,且二者基于所述失敗詞節點具有最多的順序分布一致的相同詞節點。
3.根據權利要求2所述的方法,其特征在于,所述方法還包括:
當所述第二關鍵詞與所述待過濾詞匯的尾部詞節點相同且分布順序一致時,確定所述第二關鍵詞為所述目標關鍵詞。
4.根據權利要求2所述的方法,其特征在于,所述方法還包括:
若未匹配到所述目標關鍵詞,返回文本良好提示信息。
5.根據權利要求1所述的方法,所述方法還包括:
將所述自動機存儲之本地緩存。
6.一種關鍵詞過濾裝置,其特征在于,包括:
自動機訓練模塊,用于基于關鍵詞集合訓練一套自動機;
關鍵詞過濾模塊,用于根據所述自動機指示的有限狀態機對待過濾文本進行關鍵詞過濾;
結果輸出模塊,用于將過濾出的目標關鍵詞輸出至調用端。
7.根據權利要求6所述的裝置,其特征在于,所述關鍵詞過濾模塊包括:
文本匹配單元,用于將所述關鍵詞集合中的第一關鍵詞與待過濾文本中的待過濾詞匯進行匹配,所述第一關鍵詞的第一個詞節點與所述待過濾詞匯的第一個詞節點相同,且在所述第一個詞節點后具有最多的順序分布一致的相同詞節點;
失敗節點確定單元,用于確定所述第一關鍵詞中與所述待過濾關鍵詞中第一個不匹配的失敗詞節點;
節點指向確定單元,用于在所述關鍵詞集合中確定所述失敗詞節點指向的第二關鍵詞,所述第二關鍵詞中存在與所述失敗詞節點相同的詞節點,且二者基于所述失敗詞節點具有最多的順序分布一致的相同詞節點。
8.根據權利要求7所述的裝置,其特征在于,所述裝置還包括:
過濾結果確定模塊,用于當所述第二關鍵詞與所述待過濾詞匯的尾部詞節點相同且分布順序一致時,確定所述第二關鍵詞為所述目標關鍵詞。
9.根據權利要求7所述的裝置,其特征在于,所述裝置還包括:
提示信息輸出模塊,用于若未匹配到所述目標關鍵詞,返回文本良好提示信息。
10.根據權利要求6所述的裝置,所述裝置還包括:
自動機存儲模塊,用于將所述自動機存儲之本地緩存。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海易點時空網絡有限公司,未經上海易點時空網絡有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910272751.1/1.html,轉載請聲明來源鉆瓜專利網。





