[發明專利]分類表達式生成方法和裝置有效
| 申請號: | 201710961839.5 | 申請日: | 2017-10-16 |
| 公開(公告)號: | CN107679209B | 公開(公告)日: | 2020-10-20 |
| 發明(設計)人: | 李德彥;晉耀紅;郝思洋 | 申請(專利權)人: | 鼎富智能科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 北京弘權知識產權代理事務所(普通合伙) 11363 | 代理人: | 逯長明;許偉群 |
| 地址: | 230000 安徽省合肥市*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分類 表達式 生成 方法 裝置 | ||
本申請公開了一種分類表達式生成方法和裝置,所述方法包括:獲取至少兩個分類,每個所述分類包括多個語料;根據各分類包括的語料對每個分類進行算法挖掘生成對應于該分類的頻繁模式集合,每個所述頻繁模式集合中包括至少一個頻繁模式;比較每個所有分類下的頻繁模式集合中,各個頻繁模式的概念和/或要素,排除相同的頻繁模式,保留至少有一個概念或要素與其它頻繁模式不同的頻繁模式,并生成候選頻繁模式集合;將所述至少一個候選頻繁模式中的概念和/或要素組合運算生成每個所述分類的分類表達式。本方法能夠排出分類中重復的頻繁模式,并自動生成分類表達式,避免了人工篩選和挖掘過程,提高了語料篩選效率和準確度。
技術領域
本申請涉及文本挖掘技術領域,用于對大量的語料進行挖掘并生成屬于不同分類下的分類表達式,具體地涉及了一種分類表達式生成方法和裝置。
背景技術
社會化大數據中有80%屬于非結構化數據,非結構化數據處理是大數據面臨著諸多的挑戰,其中的一種挑戰是:業務分類及規劃多變化快帶來的維護挑戰,業務分類多,分類變化快,每次分類變化時,需要把相關的所有分類的語言規則重新梳理,維護的工作量大,效率低。
對于業務性較強的相似短文本的分類或者語料,比如銀行管理系統對客服工單來電原因進行分類,由于文本內容很短,同一特征出現次數很少,并且不同的文本或者語料所屬的類別之間存在很多交叉特征,采用統計挖掘算法如TFIDF、KNN等都難以權衡合理的特征權重,導致對這些文本或語料分類的準確度不高。
實際工作中,為了保證對業務性較強的相似短文本的分類能夠達到實際運用的準確度,需要人工從大量語料中進行特征的篩選來生成分類表達式,這一過程耗時耗力。
發明內容
本申請提供了一種分類表達式生成方法和裝置,以提高對語料篩選的效率和準確度。
第一方面,本申請提供了一種分類表達式生成方法,所述方法包括:獲取至少兩個分類,每個所述分類包括多個語料;根據各分類包括的語料對每個所述分類進行算法挖掘生成對應于該分類的頻繁模式集合,每個所述頻繁模式集合中包括至少一個頻繁模式,每個所述頻繁模式中包括概念或要素中的至少一種,所述概念或要素可通過對每個所述語料解析獲得;比較所有分類下的頻繁模式集合中,各個頻繁模式的概念和/或要素,即組成各個頻繁模式的元的種類,排除相同的頻繁模式,保留至少有一個概念或要素與其它頻繁模式不同的頻繁模式,并生成候選頻繁模式集合,所述候選頻繁模式集合中包括至少一個候選頻繁模式;將所述至少一個候選頻繁模式中的概念和/或要素組合運算生成每個所述分類的分類表達式。
本方面提供的方法,通過對每個分類進行算法挖掘形成頻繁模式集合,并對所有生成的頻繁模式集合進行比較和篩選形成分類表達式,該方法能夠排出分類中重復的頻繁模式,并為任一語料生成對應于其所在分類的分類表達式,是一種自動實現過程,避免了人工篩選和挖掘過程,提高了語料篩選效率和準確度。
結合第一方面,在第一方面一種具體的實現中,每個所述語料對應一個項集,所述算法包括Apriori算法,所述根據各分類包括的語料對每個所述分類進行算法挖掘生成對應于該分類的頻繁模式集合,包括:獲取所述每個分類下的多個語料所對應的多個項集;將所述多個項集通過所述Apriori算法運算生成多個頻繁模式集合,每個所述分類對應一個頻繁模式集合。
結合第一方面,在第一方面另一種具體的實現中,所述生成多個頻繁模式集合,包括:篩選二元或二元以上且只包含概念和要素中的一種的頻繁模式;排除所述只包含概念和只包含要素組成的二元及二元以上的頻繁模式,保留一元頻繁模式和包含概念和要素的二元及二元以上的頻繁模式,并利用保留的頻繁模式生成所述多個頻繁模式集合。
本實現方式排除了二元及二元以上只包含概念和要素的頻繁模式,使得生成的分類表達式中包括概念和要素兩種,從而更準確地將要篩選的語料劃分在對應的分類下,方便業務人員對數據庫中大量語料進行統計和整理。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鼎富智能科技有限公司,未經鼎富智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710961839.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種烹飪醬汁的制備方法
- 下一篇:一種網布補強方法





