[發(fā)明專利]分類器修正和分類語料庫構(gòu)建的方法、裝置、設(shè)備及介質(zhì)有效
| 申請?zhí)枺?/td> | 201810097359.3 | 申請日: | 2018-01-31 |
| 公開(公告)號: | CN108319682B | 公開(公告)日: | 2021-12-28 |
| 發(fā)明(設(shè)計)人: | 張忠輝;魯彬;李堪兵 | 申請(專利權(quán))人: | 天聞數(shù)媒科技(北京)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/36 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 胡彬 |
| 地址: | 100088 北京市西城區(qū)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 分類 修正 語料庫 構(gòu)建 方法 裝置 設(shè)備 介質(zhì) | ||
本發(fā)明公開了一種分類器修正和分類語料庫構(gòu)建的方法、裝置、設(shè)備及介質(zhì)。該分類器的修正方法包括:獲取與分類器的至少兩個文本類別分別對應(yīng)的類別中心向量;獲取一個設(shè)定文本類別的修正文本,以及所述修正文本的文本特征向量;根據(jù)所述文本特征向量與分類器當(dāng)前各所述文本類別的類別中心向量之間的相似度,以及所述修正文本的文本類別,修正分類器中與各文本類別分別對應(yīng)的類別中心向量;返回執(zhí)行獲取一個設(shè)定文本類別的修正文本,以及所述修正文本的文本特征向量的操作,直至滿足結(jié)束修正條件,得到修正后的分類器。上述方法使得分類錯誤的文本對類別中心向量的影響更大,降低了文本分類的錯誤率。
技術(shù)領(lǐng)域
本發(fā)明實施例涉及文本分類領(lǐng)域,尤其涉及一種分類器修正和分類語料庫構(gòu)建的方法、裝置、設(shè)備及介質(zhì)。
背景技術(shù)
隨著電子科技的發(fā)展和互聯(lián)網(wǎng)的普及,人們的閱讀方式也悄然發(fā)生了轉(zhuǎn)變,傳統(tǒng)的以閱讀紙質(zhì)媒體為主的閱讀方式逐步轉(zhuǎn)向了數(shù)字化閱讀。因此,電子新聞逐漸在新聞領(lǐng)域占據(jù)越來越重要的地位。
電子新聞的自動文本分類,即將電子新聞按照新聞主題劃分為時政、經(jīng)濟(jì)、軍事、娛樂以及體育等類別,可以幫助我們篩選感興趣的新聞。同時,電子新聞的自動文本分類對于新聞選題系統(tǒng)和輿情監(jiān)控,都有著重要的現(xiàn)實意義。
目前,分類算法有多種選擇,當(dāng)對于文本分類來說,其通常選用的中心向量法中各個文本對于各個文本類別的中心向量的影響是相同的,即正確樣本和錯誤樣本對于中心向量的影響是相同的,因此,有可能會出現(xiàn)正確樣本未被充分利用,錯誤樣本卻被過分利用的問題,進(jìn)而升高了文本分類的錯誤率。
發(fā)明內(nèi)容
本發(fā)明實施例提供了一種分類器修正和分類語料庫構(gòu)建的方法、裝置、設(shè)備及介質(zhì),以優(yōu)化現(xiàn)有技術(shù)中的分類器算法以及文本分類語料庫的構(gòu)建方法,降低文本分類的錯誤率。
第一方面,本發(fā)明實施例提供了一種文本分類器的修正方法,包括:
獲取與分類器的至少兩個文本類別分別對應(yīng)的類別中心向量,所述類別中心向量是根據(jù)與文本類別對應(yīng)的至少兩個類別文本計算得到的;
獲取一個設(shè)定文本類別的修正文本,以及所述修正文本的文本特征向量;
根據(jù)所述文本特征向量與所述分類器當(dāng)前各所述文本類別的類別中心向量之間的相似度,以及所述修正文本的文本類別,修正所述分類器中與各所述文本類別分別對應(yīng)的類別中心向量;
返回執(zhí)行獲取一個設(shè)定文本類別的修正文本,以及所述修正文本的文本特征向量的操作,直至滿足結(jié)束修正條件,得到修正后的分類器。
第二方面,本發(fā)明實施例還提供了一種分類語料庫的構(gòu)建方法,包括:
根據(jù)預(yù)先指定的設(shè)定領(lǐng)域的至少兩個文本類別對應(yīng)的種子詞匯對至少兩個文本進(jìn)行預(yù)分類,構(gòu)建初始分類語料庫;
根據(jù)所述設(shè)定領(lǐng)域的至少兩個文本類別對應(yīng)的種子詞匯,訓(xùn)練得到初始的分類器作為待修正分類器;
使用所述初始分類語料庫中當(dāng)前存儲的文本作為修正文本,采用本發(fā)明任意實施例所述的文本分類器的修正方法,對當(dāng)前的所述待修正分類器進(jìn)行修正,得到文本分類器;
利用所述文本分類器對所述初始新聞分類語料庫中的文本進(jìn)行分類,并在所述初始分類語料庫中刪除文本分類器分類結(jié)果與預(yù)分類結(jié)果不一致的文本;
將所述文本分類器作為新的待修正分類器后,返回執(zhí)行使用所述初始分類語料庫中的文本作為修正文本,采用本發(fā)明任意實施例所述的文本分類器的修正方法,對當(dāng)前的修正分類器進(jìn)行修正,得到文本分類器的操作,直至滿足預(yù)設(shè)的文本去噪條件,并將當(dāng)前的所述初始分類語料庫作為所述設(shè)定領(lǐng)域的分類語料庫。
第三方面,本發(fā)明實施例還提供了一種文本分類器的修正裝置,包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于天聞數(shù)媒科技(北京)有限公司,未經(jīng)天聞數(shù)媒科技(北京)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810097359.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 構(gòu)建墊、實體圖像構(gòu)建物和構(gòu)建構(gòu)建物支撐件的方法
- 支持松耦合的軟件構(gòu)建方法、系統(tǒng)及該系統(tǒng)的實現(xiàn)方法
- 版本的構(gòu)建系統(tǒng)及方法
- 工程構(gòu)建系統(tǒng)及其構(gòu)建方法
- 實例構(gòu)建方法、裝置及軟件系統(tǒng)
- 軟件構(gòu)建方法、軟件構(gòu)建裝置和軟件構(gòu)建系統(tǒng)
- 天花板地圖構(gòu)建方法、構(gòu)建裝置以及構(gòu)建程序
- 一種項目構(gòu)建方法、持續(xù)集成系統(tǒng)及終端設(shè)備
- 并行構(gòu)建的方法、裝置及設(shè)備
- 構(gòu)建肺癌預(yù)測模型構(gòu)建方法





