[發(fā)明專利]一種新聞文本分類方法、裝置及服務(wù)器在審
| 申請?zhí)枺?/td> | 201810116106.6 | 申請日: | 2018-02-06 |
| 公開(公告)號: | CN108334610A | 公開(公告)日: | 2018-07-27 |
| 發(fā)明(設(shè)計)人: | 任寧;晉耀紅 | 申請(專利權(quán))人: | 北京神州泰岳軟件股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京弘權(quán)知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11363 | 代理人: | 逯長明;許偉群 |
| 地址: | 100089 北京市海淀區(qū)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 新聞文本 分類詞表 特征詞 分類 分詞 相關(guān)度 服務(wù)器 命中 分類過程 分類能力 內(nèi)容變化 新聞?wù)Z料 申請 創(chuàng)建 更新 積累 | ||
本申請實施例提供了一種新聞文本分類方法、裝置及服務(wù)器,首先,根據(jù)已知新聞?wù)Z料創(chuàng)建分類詞表;然后,根據(jù)分類詞表對新聞文本進行分類,獲得新聞文本的命中類別;然后,對新聞文本進行分詞,并獲取每個新聞文本的分詞與命中類別的相關(guān)度;最后,根據(jù)相關(guān)度,從新聞文本的分詞中選拔特征詞,并將選拔出的特征詞添加到分類詞表中。隨著新聞文本分類的進行,本申請實現(xiàn)了在新聞文本的分類過程中持續(xù)地更新分類詞表,使分類詞表在使用過程中能夠不斷積累和完善特征詞,及時跟隨新聞文本的內(nèi)容變化趨勢,保持并不斷提高分類詞表對新出現(xiàn)的新聞文本的分類能力,從而,提高了新聞文本分類的準確性。
技術(shù)領(lǐng)域
本申請涉及自然語言處理技術(shù)領(lǐng)域,尤其涉及一種新聞文本分類方法、裝置及服務(wù)器。
背景技術(shù)
在自然語言處理技術(shù)領(lǐng)域,文本數(shù)據(jù)的處理包括文本分類、文本組織和文本管理等類型,其中,文本分類是指在給定的分類體系下,根據(jù)文本內(nèi)容自動確定文本類別的過程。
隨著移動互聯(lián)網(wǎng)技術(shù)的發(fā)展,互聯(lián)網(wǎng)中的信息來源越來越廣泛,互聯(lián)網(wǎng)信息的數(shù)量迅速增加。在新聞傳媒領(lǐng)域,隨著流量媒體和互聯(lián)網(wǎng)自媒體的迅速繁榮,新聞的來源變得更加多元,生成速度大大加快,如何有效地從互聯(lián)網(wǎng)中收集新聞,并對收集到的新聞進行分類已經(jīng)成為新聞媒體所面臨的重要挑戰(zhàn)。因此,對新聞文本進行分類就成為了文本分類的一個重要應(yīng)用方向。
現(xiàn)有技術(shù)中對新聞文本進行分類多采用基于統(tǒng)計學算法的文本分類方法。圖1為現(xiàn)有技術(shù)的一種新聞文本分類方法的示意圖,使用基于統(tǒng)計學算法的文本分類方法進行文本分類時,首先,要對大量的已知類別的新聞文本進行標注;然后,以標注后的新聞文本作為訓練語料,訓練文本分類器,使文本分類器具備對未知文本的分類能力。在現(xiàn)有技術(shù)的基于統(tǒng)計學算法的文本分類方法,文本分類的準確度取決于訓練語料的數(shù)量和質(zhì)量,因此,為了提高文本分類的準確率,必須使用大量的訓練語料對文本分類器進行訓練,而語料標注的過程是通過人工實現(xiàn)的,難以滿足獲得大量訓練需要的要求,導致準確利率不理想。
此外,由于新聞具有熱點性強、時效性強、更迭速度塊、過期速度快的特點,新聞文本往往在積累語料的過程中就已經(jīng)過期,無法反映當前的新聞熱點;因此,基于統(tǒng)計學算法的文本分類方法由于訓練語料在積累過程中存在時效上的滯后,而缺乏對新出現(xiàn)的新聞文本的分類能力,從而在實際應(yīng)用中存在著對新聞文本分類的準確率偏低的問題。
因此,如何提高對新聞文本分類的準確性,成為本領(lǐng)域技術(shù)人員亟待解決的技術(shù)問題。
發(fā)明內(nèi)容
本申請實施例提供了一種新聞文本分類方法、裝置及服務(wù)器,以解決現(xiàn)有技術(shù)中存在的問題。
第一方面,本申請實施例提供了一種新聞文本分類方法,所述方法包括:
S110,根據(jù)已知新聞?wù)Z料創(chuàng)建分類詞表;所述分類詞表設(shè)置有多個新聞類別,每個新聞類別中包含至少一個特征詞;
S120,根據(jù)所述分類詞表對新聞文本進行分類,獲得新聞文本的命中類別;
S130,對新聞文本進行分詞,并獲取每個新聞文本的分詞與所述命中類別的相關(guān)度;
S140,根據(jù)所述相關(guān)度,從新聞文本的分詞中選拔所述特征詞,并將選拔出的所述特征詞添加到所述分類詞表中;
S150,重復(fù)執(zhí)行步驟S120-S140,直到所述分類詞表對新聞文本分類的準確率滿足預(yù)設(shè)終止條件為止。
第二方面,本申請實施例還提供了一種新聞文本分類裝置,所述裝置包括:
創(chuàng)建單元,用于根據(jù)已知新聞?wù)Z料創(chuàng)建分類詞表;所述分類詞表設(shè)置有多個新聞類別,每個新聞類別中包含至少一個特征詞;
分類單元,用于根據(jù)所述分類詞表對新聞文本進行分類,獲得新聞文本的命中類別;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京神州泰岳軟件股份有限公司,未經(jīng)北京神州泰岳軟件股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810116106.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





