[發明專利]關鍵詞提取方法及裝置有效
| 申請號: | 201610409544.2 | 申請日: | 2016-06-12 |
| 公開(公告)號: | CN106649422B | 公開(公告)日: | 2019-05-03 |
| 發明(設計)人: | 徐云恒;馮文仲;熊勝;吳勤華;楊晶蕾 | 申請(專利權)人: | 中國移動通信集團湖北有限公司 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F17/27 |
| 代理公司: | 北京派特恩知識產權代理有限公司 11270 | 代理人: | 張穎玲;張振偉 |
| 地址: | 430040 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 關鍵詞 提取 方法 裝置 | ||
本發明公開一種關鍵詞提取方法及裝置;方法包括:解析待分析短信,得到各待分析短信所屬的類別,從屬于同一類別的待分析短信的內容中提取出與預設詞庫匹配的候選關鍵詞,解析所提取的候選關鍵詞得到相應候選關鍵詞的特征,從所提取的候選關鍵詞中提取出與預設特征匹配的目標關鍵詞。采用本發明實施例,實現了對待分析短信關鍵詞的自動提取,減少了對待分析短信關鍵詞提取的時間,節省了人工成本。
技術領域
本發明涉及計算機領域的數據處理技術,尤其涉及一種關鍵詞提取方法及裝置。
背景技術
隨著實時通信需求的與日俱增,垃圾短信、非法消息日益泛濫,已經嚴重影響到人們正常生活。為此,各運營商積極采取措施,對通信消息進行實時監控,盡可能限制垃圾短信的下發,提高用戶服務質量。垃圾短信之所以對用戶造成不良影響,大多是因為其內容非法,因此對短信內容進行監控是一種極為有效的手段,而關鍵詞監控策略的制定顯得尤為重要,關鍵詞選擇的不準確既可能造成對合法消息的攔截,又可能造成對非法消息的漏攔,大大降低通信服務質量。
現有技術中,短信監控系統配置的關鍵詞提取一般由人工提取而成,但是,由于人工提取關鍵詞策略對人員素質要求很高,對于不熟悉短信監控業務的人員很難提取出高質量的關鍵詞;另外,由于疑似垃圾短信量很大,而且呈上漲趨勢,如此,使用人工方式提取關鍵詞,不僅大大增加了人工成本,而且耗時較多。
發明內容
為解決現有存在的技術問題,本發明實施例提供一種關鍵詞提取方法及裝置,能實現對疑似垃圾短信的關鍵詞自動提取,減少了關鍵詞提取成本,節省了關鍵詞提取時間。
為達到上述目的,本發明的技術方案是這樣實現的:
第一方面,本發明實施例提供一種關鍵詞提取方法,方法包括:
解析待分析短信,得到各所述待分析短信所屬的類別;
從屬于同一類別的待分析短信的內容中提取出與預設詞庫匹配的候選關鍵 詞;
解析所提取的候選關鍵詞得到相應候選關鍵詞的特征;
從所提取的候選關鍵詞中提取出與預設特征匹配的目標關鍵詞。
在上述方案中,所述解析待分析短信,得到各所述待分析短信所屬的類別,包括:
根據第一預置相似度閾值對所述待分析短信進行切分,判定滿足第二預置相似度閾值的待分析短信;
根據所述滿足第二預置相似度閾值的待分析短信的字符串特征,獲取所述滿足第二預置相似度閾值的待分析短信的相似度;
根據所述滿足第二預置相似度閾值的待分析短信的相似度,得到各所述待分析短信所屬的類別。
在上述方案中,所述從屬于同一類別的待分析短信的內容中提取出與預設詞庫匹配的候選關鍵詞,包括:
確定屬于同一類別的待分析短信的內容與預設分詞詞庫匹配時,則提取出所述同一類別的待分析短信的詞序列;
確定所述同一類別的待分析短信的詞序列與預設有效詞詞庫匹配時,則提取出與預設有效詞庫匹配的所述候選關鍵詞;其中,所述預設詞庫包括預設分詞詞庫和預設有效詞詞庫。
在上述方案中,從所提取的候選關鍵詞中提取出與預設特征匹配的目標關鍵詞,包括:
根據所述候選關鍵詞的詞頻統計特性,獲取所述候選關鍵詞中最高詞頻關鍵詞和所述候選關鍵詞中詞頻由高到低選取的次高頻關鍵詞集;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國移動通信集團湖北有限公司,未經中國移動通信集團湖北有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610409544.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種人機對話平臺
- 下一篇:一種基于內容相關度的檢索模型計算方法





