[發(fā)明專利]一種新聞文本分類方法、裝置及服務(wù)器在審
| 申請?zhí)枺?/td> | 201810116106.6 | 申請日: | 2018-02-06 |
| 公開(公告)號: | CN108334610A | 公開(公告)日: | 2018-07-27 |
| 發(fā)明(設(shè)計)人: | 任寧;晉耀紅 | 申請(專利權(quán))人: | 北京神州泰岳軟件股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京弘權(quán)知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11363 | 代理人: | 逯長明;許偉群 |
| 地址: | 100089 北京市海淀區(qū)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 新聞文本 分類詞表 特征詞 分類 分詞 相關(guān)度 服務(wù)器 命中 分類過程 分類能力 內(nèi)容變化 新聞?wù)Z料 申請 創(chuàng)建 更新 積累 | ||
1.一種新聞文本分類方法,其特征在于,包括:
S110,根據(jù)已知新聞?wù)Z料創(chuàng)建分類詞表;所述分類詞表設(shè)置有多個新聞類別,每個新聞類別中包含至少一個特征詞;
S120,根據(jù)所述分類詞表對新聞文本進行分類,獲得新聞文本的命中類別;
S130,對新聞文本進行分詞,并獲取每個新聞文本的分詞與所述命中類別的相關(guān)度;
S140,根據(jù)所述相關(guān)度,從新聞文本的分詞中選拔所述特征詞,并將選拔出的所述特征詞添加到所述分類詞表中;
S150,重復(fù)執(zhí)行步驟S120-S140,直到所述分類詞表對新聞文本分類的準確率滿足預(yù)設(shè)終止條件為止。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)已知新聞?wù)Z料創(chuàng)建分類詞表;所述分類詞表設(shè)置有多個新聞類別,每個新聞類別中包含至少一個特征詞的步驟包括:
設(shè)置所述分類詞表的新聞類別;
從已知新聞?wù)Z料中獲取所述特征詞;
根據(jù)所述特征詞所屬已知新聞?wù)Z料的新聞類別,將所述特征詞添加到所述分類詞表中。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述分類詞表中還包含正則表達式,所述設(shè)置所述分類詞表的新聞類別的步驟之后,還包括:
從已知新聞?wù)Z料中獲取特征句;
將所述特征句轉(zhuǎn)化為正則表達式;
根據(jù)所述特征句來源的已知新聞?wù)Z料的新聞類別,將正則表達式添加到所述分類詞表中。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述分類詞表對新聞文本進行分類,獲得新聞文本的命中類別的步驟包括:
根據(jù)所述分類詞表,獲取新聞文本中包含的所有所述特征詞;
根據(jù)新聞文本中每個新聞類別的特征詞出現(xiàn)的頻次,分別獲取新聞文本與每個新聞類別的匹配度;
將所述匹配度的最高值對應(yīng)的新聞類別作為命中類別。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)新聞文本中每個新聞類別的特征詞出現(xiàn)的頻次,分別獲取新聞文本與每個新聞類別的匹配度的步驟包括:
解析新聞文本的新聞結(jié)構(gòu);所述新聞結(jié)構(gòu)包括標題、導(dǎo)語、主體、結(jié)語和背景五個部分;
獲取新聞文本各個部分的特征詞權(quán)重;
根據(jù)每個新聞類別的所述特征詞在新聞文本各個部分出現(xiàn)的頻次和特征詞權(quán)重,計算所述匹配度;
其中,計算所述匹配度使用以下公式:
P=p1×C1+p2×C2+…+pn×Cn
其中,P為新聞文本與某個新聞類別的所述匹配度,p1~pn為新聞文本各個部分的特征詞權(quán)重,C1~Cn為某個新聞類別的所述特征詞在新聞文本各個部分的數(shù)量。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對新聞文本進行分詞,并獲取每個新聞文本的分詞與所述命中類別的相關(guān)度的步驟包括:
根據(jù)預(yù)設(shè)的切詞規(guī)則,對新聞文本進行切詞處理,獲取新聞文本的分詞;
去除新聞文本的分詞中包含的停用詞;
計算新聞文本的每個分詞相對于所述命中類別的TF-IDF值,將所述TF-IDF值作為所述相關(guān)度。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)相關(guān)度,從新聞文本的分詞中選拔所述特征詞,并將選拔出的所述特征詞添加到所述分類詞表中的步驟包括:
根據(jù)所述相關(guān)度,對新聞文本的分詞進行排序;
根據(jù)分詞排序的結(jié)果,選取所述相關(guān)度高于第一預(yù)設(shè)值的所述分詞作為所述特征詞;
將所述特征詞添加到所述分類詞表中。
8.根據(jù)權(quán)利要求5所述的方法,其特征在于,
所述特征詞包括正向特征詞和反向特征詞;所述正向特征詞的特征詞權(quán)重為正值,所述反向特征詞的特征詞權(quán)重為負值。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京神州泰岳軟件股份有限公司,未經(jīng)北京神州泰岳軟件股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810116106.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





