[發明專利]一種對短信文本進行分類的方法及系統在審
| 申請號: | 201711346557.0 | 申請日: | 2017-12-15 |
| 公開(公告)號: | CN108170733A | 公開(公告)日: | 2018-06-15 |
| 發明(設計)人: | 楊文婷;李靜 | 申請(專利權)人: | 云蜂科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100083 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 詞表 短信 標注信息 短信文本 分類表 匹配項 類別標識 分類 短信分類 短信信息 分詞處理 精準分類 預置 匹配 查找 環節 | ||
一種對短信文本進行分類的方法和系統。所述方法包括:對短信文本進行分詞處理獲得短信詞表;查找預置的分類表,獲得所述短信詞表中與分類表匹配的匹配項,并獲得所述匹配項在分類表中的標注信息;在短信詞表中建立該匹配項與所述標注信息的對應關系;根據標注信息獲得對應的優先級;獲得短信詞表中優先級最高的標注信息以及對應的類別標識,根據所述類別標識對短信分類。本發明與現有技術相比具有更少的處理環節,因此具備對海量短信信息分類的能力;另一方面,本發明又可以針對少量特殊短信做精準分類。
技術領域
本發明涉及一種數據分類處理技術,尤其是對于非結構化文本進行分類的技術。
背景技術
對非結構化文本分類,一般采用基于內容的機器學習的方法。采用機器學習的方法需要海量數據的支持,利用海量數據進行訓練的模型。
對于結構相對規范的短文本信息,例如銀行,電信等機構發送的通知短信等,如果希望相對精準的對短信分類,并提取結構信息時,現有機器學習的方法在信息分類的準確性和效率方面并未達到期望的要求。尤其是同一條短信中出現多種關鍵信息,如逾期、還款、賬單等信息時,對各類別賦予不同的優先級,可以實現更為準確的分類。
發明內容
本發明的目的是為了提供一種具有較佳分類準確率和分類效率的對短信文本進行分類的方法及系統。
一種對短信文本進行分類的方法,其特征在于,包括:對短信文本進行分詞處理獲得短信詞表;查找預置的分類表,獲得所述短信詞表中與分類表匹配的匹配項,并獲得所述匹配項在分類表中的標注信息;在短信詞表中建立該匹配項與所述標注信息的對應關系;根據標注信息獲得對應的優先級;獲得短信詞表中優先級最高的標注信息以及對應的類別標識,根據所述類別標識對短信分類。
上述方法中,所述獲得所述分類優先級具體為:讀取短信詞表,獲取匹配項對應的標注信息;按照預置的標注信息與優先級的對應關系查找該匹配項標注信息對應的優先級。
上述方法中,獲得所述短信詞表中與分類表匹配項,進一步獲取該匹配項在分類表中的標注信息所對應的優先級;在短信詞表中建立該匹配項與所述標注信息及優先級的對應關系。
上述方法中,獲得短信詞表中優先級最高的類別標識具體為:查找獲得短信詞表中最高的優先級;查找短信詞表中該最高優先級對應的標注信息;獲得短信詞表中與所述標注信息對應的類別標識。
其中,獲得短信詞表中優先級最高的分類具體為:順序讀取短信詞表;若當前讀取詞具有標注信息,則獲取該標注信息對應的優先級;若當前獲取的優先級高于已緩存的優先級,則將所述當前獲取的標注信息對應的類別標識及優先級更新至緩存;否則讀取短信詞表中的下一個詞。
進一步,將所述當前獲取的類別標識及優先級更新至緩存后還包括:判斷所述當前優先級是否為優先級序列的最高級,若是則結束讀取短信詞表。
本發明實施例提供一種對短信文本進行分類的系統,包括:
分詞模塊,用于對短信進行分詞處理,生成短信詞表;
短信詞表編輯模塊,用于將所述短信詞表與預置的分類表進行匹配,獲得所述短信詞表中與分類表匹配的匹配項,獲取所述匹配項在分類表中的標注信息,在短信詞表中建立所述匹配項與標注信息的對應關系;
第一查找模塊,用于順序讀取短信詞表,獲取當前匹配項的標注信息,查找預置的對應關系,獲得標注信息對應的優先級及類別標識;若結束對短信詞表的讀取,則觸發輸出模塊輸出類別標識;
緩存模塊,用于緩存類別標識及對應的優先級;
比較計算模塊,用于將第一查找模塊獲得的優先級與緩存模塊已緩存的優先級進行比較,若第一查找模塊獲得所述優先級高,則將第一查找模塊獲得的類別標識及優先級更新至緩存模塊;
輸出模塊,輸出緩存單元保存的類別標識。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于云蜂科技有限公司,未經云蜂科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711346557.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:人臉圖片檢索方法及計算機可讀存儲介質
- 下一篇:一種智能化運維機器人





