[發(fā)明專利]開放領域的短文本分類方法、裝置、設備及存儲介質在審
| 申請?zhí)枺?/td> | 202010521294.8 | 申請日: | 2020-06-10 |
| 公開(公告)號: | CN111680158A | 公開(公告)日: | 2020-09-18 |
| 發(fā)明(設計)人: | 張發(fā)恩;王一川 | 申請(專利權)人: | 創(chuàng)新奇智(青島)科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/31 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 李飛 |
| 地址: | 266200 山東省青島市*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 開放 領域 文本 分類 方法 裝置 設備 存儲 介質 | ||
1.一種開放領域的短文本分類方法,其特征在于,所述方法包括:
獲取待分類短文本;
根據(jù)開放領域搜索引擎對所述待分類短文本進行相關反饋計算并得到所述待分類短文本的反饋文本;
對所述反饋文本進行特征提取并得到所述待分類短文本的擴展詞集合;
根據(jù)若干類語料庫和所述待分類短文本的擴展詞集合對所述待分類短文本進行分類并得到所述待分類短文本的分類類別。
2.如權利要求1所述的方法,其特征在于,在所述根據(jù)若干類語料庫和所述待分類短文本的擴展詞集合對所述待分類短文本進行分類并得到所述待分類短文本的分類類別之前,所述方法還包括:
檢索文本數(shù)據(jù)并生成語料;
根據(jù)所述語料構建所述若干類語料庫;
匹配若干類語料庫的搜索索引。
3.如權利要求2所述的方法,其特征在于,所述文本數(shù)據(jù)為百科類數(shù)據(jù)。
4.如權利要求2所述的方法,其特征在于,所述根據(jù)若干類語料庫和所述待分類短文本的擴展詞集合對所述待分類短文本進行分類并得到所述待分類短文本的分類類別,包括:
根據(jù)所述待分類短文本的擴展詞集合在所述若干類語料庫中搜索并得到若干類語料庫的檢索結果;
根據(jù)所述若干類語料庫的檢索結果確定所述待分類短文本的分類類別。
5.如權利要求4所述的方法,其特征在于,所述根據(jù)所述若干類語料庫的檢索結果確定所述待分類短文本的分類類別,包括:
根據(jù)所述若干類語料庫的檢索結果確定檢索得分;
比較每個所述語料庫的檢索得分,并根據(jù)比較結果確定所述待分類短文本的分類類別。
6.如權利要求5所述的方法,其特征在于,所述根據(jù)所述若干類語料庫的檢索結果確定檢索得分,包括:
基于所述若干類語料庫的檢索結果,根據(jù)最鄰近分類算法確定檢索得分。
7.如權利要求1-6任一項所述的方法,其特征在于,每個類別的所述語料庫的語料的數(shù)目相同,每個類別的所述語料庫的語料的篇幅長短相同。
8.一種開放領域的短文本分類裝置,其特征在于,所述裝置包括:
獲取模塊,用于獲取待分類短文本;
計算模塊,用于根據(jù)開放領域搜索引擎對所述待分類短文本進行相關反饋計算并得到所述待分類短文本的反饋文本;
提取模塊,用于對所述反饋文本進行特征提取并得到所述待分類短文本的擴展詞集合;
分類模塊,用于根據(jù)若干類語料庫和所述待分類短文本的擴展詞集合對所述待分類短文本進行分類并得到所述待分類短文本的分類類別。
9.一種開放領域的短文本分類設備,其特征在于,所述設備包括:
處理器;以及
存儲器,配置用于存儲機器可讀指令,所述指令在由所述處理器執(zhí)行時執(zhí)行如權利要求1-7任一項所述的開放領域的短文本分類方法。
10.一種存儲介質,其特征在于,所述存儲介質存儲有計算機程序,所述計算機程序被處理器執(zhí)行時執(zhí)行如權利要求1-7任一項所述的開放領域的短文本分類方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于創(chuàng)新奇智(青島)科技有限公司,未經創(chuàng)新奇智(青島)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010521294.8/1.html,轉載請聲明來源鉆瓜專利網。





