[發明專利]一種識別數字語義的方法、檢測短信類別的方法及裝置有效
| 申請號: | 201510971979.1 | 申請日: | 2015-12-22 |
| 公開(公告)號: | CN105589846B | 公開(公告)日: | 2018-07-31 |
| 發明(設計)人: | 張金晶;李強;常富洋 | 申請(專利權)人: | 北京奇虎科技有限公司;奇智軟件(北京)有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京華沛德權律師事務所 11302 | 代理人: | 房德權 |
| 地址: | 100088 北京市西城區新*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 識別 數字 語義 方法 檢測 短信 類別 裝置 | ||
本發明公開了一種識別數字語義的方法、檢測短信類別的方法及裝置,該識別數字語義的方法包括:獲得目標文本中的目標數字;以所述目標數字為基準,獲得與所述目標數字之間距離小于等于設定閾值的至少兩個分詞及每個分詞的詞性;根據所述目標數字、所述至少兩個分詞及所述每個分詞的詞性生成目標輸入數據序列;將所述目標輸入數據序列輸入條件隨機場模型,獲得與所述目標輸入數據序列之間具有最大聯合概率的目標狀態數據序列;根據所述狀態數據序列,獲得表征目標數字語義的標簽。通過上述技術方案,解決了現有技術中無法識別短信中數字語義的技術問題,達到了數字語義識別的有益技術效果。
技術領域
本發明涉及通信技術領域,尤其涉及一種識別數字語義的方法、檢測短信類別的方法及裝置。
背景技術
隨著科學技術的不斷發展,通信技術得到了飛速的發展,通信的方式多種多樣,包括電話、短信、email等。短信由于其具有短小精要、成本低廉等優點被人們廣泛的使用。
人們在使用短信的過程中,經常會收到詐騙短信、廣告推銷短信、騷擾短信等各種各樣的垃圾端。為了避免垃圾短信給用戶帶來的困擾,現有技術中通常采用手機衛士、來電通等應用程序來對垃圾短信進行識別并攔截。但是,由于現有應用程序對垃圾短信的識別均是依據關鍵詞進行,對于包含數字的短信容易出現誤判的情況。例如:現有常見的快遞短信,通常情況下包含快遞單號及廣告內容,由于無法識別該短信中快遞單號的語義,導致根據關鍵詞識別方法在獲得該短信中的廣告關鍵詞后,將其判別為垃圾短信并進行攔截,但實際上該快遞短信對用戶來說是有用的短信,不應該被攔截。
可見,現有技術中存在無法識別短信中數字語義的技術問題。
發明內容
鑒于上述問題,提出了本發明以便提供一種克服上述問題或者至少部分地解決上述問題的識別數字語義的方法、檢測短信類別的方法及裝置。
本發明的一個方面,提供了一種識別數字語義的方法,包括:
獲得目標文本中的目標數字;
以所述目標數字為基準,獲得與所述目標數字之間距離小于等于設定閾值的至少兩個分詞及每個分詞的詞性;
根據所述目標數字、所述至少兩個分詞及所述每個分詞的詞性生成目標輸入數據序列;
將所述目標輸入數據序列輸入條件隨機場模型,獲得與所述目標輸入數據序列之間具有最大聯合概率的目標狀態數據序列;
根據所述狀態數據序列,獲得表征目標數字語義的標簽。
可選的,所述獲得目標文本中的目標數字,包括:刪除所述目標文本中的特定信息;對目標文本內容基于語法進行分詞,獲得目標文本中的所述目標數字。
可選的,所述特定信息包括URL、IP地址、電話號碼、日期及時間。
可選的,所述以所述目標數字為基準,獲得與所述目標數字之間距離小于等于設定閾值的至少兩個分詞及每個分詞的詞性,包括:獲得位于所述目標數字之前和/或之后,與所述目標數字之間距離小于等于所述設定閾值的所述至少兩個分詞及所述每個分詞的詞性。
可選的,與所述目標數字之間的距離通過每個詞作為單位距離進行表征。
可選的,所述文本包括:短信、句子或文章。
可選的,所述標簽包含表征校驗碼、快遞單號、車次/航班號、密碼、繳費單號及團購單號的特定標簽。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇虎科技有限公司;奇智軟件(北京)有限公司,未經北京奇虎科技有限公司;奇智軟件(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510971979.1/2.html,轉載請聲明來源鉆瓜專利網。





