[發明專利]驗證和校正用于文本分類的訓練數據有效
| 申請號: | 201910675375.0 | 申請日: | 2019-07-25 |
| 公開(公告)號: | CN110781684B | 公開(公告)日: | 2023-04-28 |
| 發明(設計)人: | 增田聰;宮本晃太郎;巖間太;竹內廣宜 | 申請(專利權)人: | 國際商業機器公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/30 |
| 代理公司: | 北京市金杜律師事務所 11256 | 代理人: | 酆迅;李崢宇 |
| 地址: | 美國紐*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 驗證 校正 用于 文本 分類 訓練 數據 | ||
1.一種用于文本分類的方法,包括:
標識根據類別的多個層級圖中的第一類別分類的文本樣本,與所述第一類別相比所述文本樣本根據相似性度量更類似于所述類別的多個層級圖中的第二類別;
從標識的所述文本樣本刪除與所述第二類別相關聯的詞;
向標識的所述文本樣本添加與所述第一類別相關聯的詞;
使用所述文本樣本作為訓練數據,訓練文本分類模型;以及
使用在處理器設備上實現的經訓練的文本分類模型對輸入文本執行文本分類。
2.根據權利要求1所述的方法,其中標識所述文本樣本包括:根據所述相似性度量將所述文本樣本與來自所述類別的多個層級圖中的每個類別的代表性文本樣本進行比較。
3.根據權利要求1所述的方法,其中所述類別的多個層級圖包括多個不相交的圖。
4.根據權利要求3所述的方法,其中所述第一類別和所述第二類別不屬于相同的圖層級。
5.根據權利要求3所述的方法,其中每個層級圖包括多個類別和類別之間的多個有向邊,每個有向邊指示其連接的類別之間的層級關系。
6.根據權利要求1所述的方法,其中與所述第一類別相關聯的所述詞是在所述第一類別中的跨越所有文本的具有最高詞頻逆文檔頻率值的詞。
7.根據權利要求1所述的方法,其中與所述第二類別相關聯的所述詞是在所述第二類別中的跨越所有文本的具有最高詞頻逆文檔頻率值的詞。
8.根據權利要求1所述的方法,其中所述相似性度量是從包括余弦相似度和詞頻逆文檔頻率值的組中選擇的。
9.根據權利要求1所述的方法,其中刪除與所述第二類別相關聯的所述詞以及添加與所述第一類別相關聯的所述詞使得所述文本樣本更接近地符合包括所述第一類別的類別的層級圖,使得使用經訓練的所述文本分類模型的文本分類在所述第一類別和所述第二類別之間進行區分時表現出優越的性能。
10.根據權利要求1所述的方法,其中標識所述文本樣本包括:根據所述相似性度量,將所述文本樣本與來自所述類別的多個層級圖中的每個類別的代表性文本樣本進行比較,其中與所述第一類別相關聯的所述詞是在所述第一類別中的跨越所有文本具有最高詞頻逆文檔頻率值的詞,其中與所述第二類別相關聯的詞是在所述第二類別中的跨越所有文本具有最高詞頻逆文檔頻率值的詞,并且其中刪除與所述第二類別相關聯的所述詞以及添加與所述第一類別相關聯的所述詞使得所述文本樣本更接近地符合包括所述第一類別的類別的層級圖,使得使用經訓練的所述文本分類模型的文本分類在所述第一類別和所述第二類別之間進行區分時表現出優越的性能。
11.一種計算機可讀存儲介質,包括用于文本分類的計算機可讀程序,其中所述計算機可讀程序在計算機上被執行時使得所述計算機執行根據權利要求1-10中的任一項所述的方法中的步驟。
12.一種用于文本分類的計算機系統,包括被配置為執行根據權利要求1-10中的任一項所述的方法中的步驟的模塊。
13.一種用于文本分類的計算機系統,包括:
存儲計算機可執行指令的至少一個存儲器;以及
至少一個處理器,其中所述至少一個處理器被配置為訪問所述至少一個存儲器并且執行所述計算機可執行指令,以執行根據權利要求1-10中的任一項所述的方法中的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國際商業機器公司,未經國際商業機器公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910675375.0/1.html,轉載請聲明來源鉆瓜專利網。





