[發(fā)明專(zhuān)利]驗(yàn)證和校正用于文本分類(lèi)的訓(xùn)練數(shù)據(jù)有效
| 申請(qǐng)?zhí)枺?/td> | 201910675375.0 | 申請(qǐng)日: | 2019-07-25 |
| 公開(kāi)(公告)號(hào): | CN110781684B | 公開(kāi)(公告)日: | 2023-04-28 |
| 發(fā)明(設(shè)計(jì))人: | 增田聰;宮本晃太郎;巖間太;竹內(nèi)廣宜 | 申請(qǐng)(專(zhuān)利權(quán))人: | 國(guó)際商業(yè)機(jī)器公司 |
| 主分類(lèi)號(hào): | G06F16/35 | 分類(lèi)號(hào): | G06F16/35;G06F40/30 |
| 代理公司: | 北京市金杜律師事務(wù)所 11256 | 代理人: | 酆迅;李崢宇 |
| 地址: | 美國(guó)紐*** | 國(guó)省代碼: | 暫無(wú)信息 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 驗(yàn)證 校正 用于 文本 分類(lèi) 訓(xùn)練 數(shù)據(jù) | ||
本發(fā)明的實(shí)施例涉及驗(yàn)證和校正用于文本分類(lèi)的訓(xùn)練數(shù)據(jù)。具體地,用于文本分類(lèi)的方法和系統(tǒng)包括:標(biāo)識(shí)根據(jù)類(lèi)別的層級(jí)圖集中的第一類(lèi)別分類(lèi)的文本樣本,與第一類(lèi)別相比該文本樣本根據(jù)相似性度量更類(lèi)似于類(lèi)別的層級(jí)圖集中的第二類(lèi)別。從標(biāo)識(shí)的文本樣本刪除與第二類(lèi)別相關(guān)聯(lián)的詞。向標(biāo)識(shí)的文本樣本添加與第一類(lèi)別相關(guān)聯(lián)的詞。使用文本樣本作為訓(xùn)練數(shù)據(jù)來(lái)訓(xùn)練文本分類(lèi)模型。使用在處理器設(shè)備上實(shí)現(xiàn)的經(jīng)訓(xùn)練的文本分類(lèi)模型對(duì)輸入文本執(zhí)行文本分類(lèi)。
技術(shù)領(lǐng)域
本發(fā)明一般涉及文本分類(lèi),并且更具體地涉及用于在訓(xùn)練文本分類(lèi)系統(tǒng)中使用的訓(xùn)練數(shù)據(jù)的自動(dòng)生成。
背景技術(shù)
具有監(jiān)督式機(jī)器學(xué)習(xí)的文本分類(lèi)系統(tǒng)被用來(lái)對(duì)輸入信息自動(dòng)進(jìn)行解釋和分類(lèi),從而使用自然語(yǔ)言提供對(duì)大型知識(shí)庫(kù)的快速訪問(wèn)。文本分類(lèi)系統(tǒng)接受輸入文本并標(biāo)識(shí)文本所屬的一個(gè)或多個(gè)類(lèi)別,使得例如可以對(duì)自然語(yǔ)言查詢提供響應(yīng)。
這種分類(lèi)系統(tǒng)需要訓(xùn)練數(shù)據(jù)來(lái)充分訓(xùn)練其分類(lèi)模型。然而,這種訓(xùn)練數(shù)據(jù)通常由提供給定文本樣本的替代版本的人類(lèi)操作員手動(dòng)生成,這是一個(gè)耗時(shí)且可能昂貴的過(guò)程。此外,由于與其他類(lèi)別中的樣本過(guò)于相似,手動(dòng)生成的訓(xùn)練數(shù)據(jù)可能會(huì)偏移而跨越分類(lèi)邊界,從而導(dǎo)致經(jīng)訓(xùn)練的系統(tǒng)將數(shù)據(jù)分類(lèi)到錯(cuò)誤類(lèi)別中。
發(fā)明內(nèi)容
一種用于文本分類(lèi)的方法,包括:標(biāo)識(shí)根據(jù)類(lèi)別的層級(jí)圖集中的第一類(lèi)別分類(lèi)的文本樣本,與第一類(lèi)別相比該文本樣本根據(jù)相似性度量更類(lèi)似于類(lèi)別的層級(jí)圖集中的第二類(lèi)別。從標(biāo)識(shí)的文本樣本刪除與第二類(lèi)別相關(guān)聯(lián)的詞(word)。向標(biāo)識(shí)的文本樣本添加與第一類(lèi)別相關(guān)聯(lián)的詞。使用文本樣本作為訓(xùn)練數(shù)據(jù)來(lái)訓(xùn)練文本分類(lèi)模型。使用在處理器設(shè)備上實(shí)現(xiàn)的經(jīng)訓(xùn)練的文本分類(lèi)模型對(duì)輸入文本執(zhí)行文本分類(lèi)。
一種文本分類(lèi)系統(tǒng),包括:驗(yàn)證和校正模塊,驗(yàn)證和校正模塊被配置為標(biāo)識(shí)根據(jù)類(lèi)別的層級(jí)圖集中的第一類(lèi)別分類(lèi)的文本樣本,與第一類(lèi)別相比該文本樣本根據(jù)相似性度量更類(lèi)似于類(lèi)別的層級(jí)圖集中的第二類(lèi)別,從標(biāo)識(shí)的文本樣本中刪除與第二類(lèi)別相關(guān)聯(lián)的詞,并且向標(biāo)識(shí)的文本樣本添加與第一類(lèi)別相關(guān)聯(lián)的詞。訓(xùn)練模塊被配置為使用文本樣本作為訓(xùn)練數(shù)據(jù)來(lái)訓(xùn)練文本分類(lèi)模型。分類(lèi)模塊被配置為使用在處理器設(shè)備上實(shí)現(xiàn)的經(jīng)訓(xùn)練的文本分類(lèi)模型對(duì)輸入文本執(zhí)行文本分類(lèi)。
從結(jié)合附圖閱讀的其說(shuō)明性實(shí)施例的以下詳細(xì)描述中,這些和其他特征以及優(yōu)點(diǎn)將變得顯而易見(jiàn)。
附圖說(shuō)明
以下描述將參考以下附圖提供優(yōu)選實(shí)施例的細(xì)節(jié),其中:
圖1是根據(jù)本發(fā)明實(shí)施例的包括類(lèi)別的層級(jí)組織的不同分類(lèi)層級(jí)結(jié)構(gòu)的圖,該圖示出了通過(guò)訓(xùn)練數(shù)據(jù)的手動(dòng)生成而可能會(huì)無(wú)意中跨界(bridged)的類(lèi)別之間的相似性;
圖2是根據(jù)本發(fā)明實(shí)施例的用于訓(xùn)練數(shù)據(jù)驗(yàn)證和校正的方法的框圖/流程圖,該方法標(biāo)識(shí)與其他類(lèi)別太相似的訓(xùn)練數(shù)據(jù)的實(shí)例,然后修改實(shí)例以使它們更接近于它們自己的預(yù)期類(lèi)別;
圖3是根據(jù)本發(fā)明實(shí)施例的方法的框圖/流程圖,該方法用于通過(guò)刪除與另一類(lèi)別相關(guān)聯(lián)的詞并添加與預(yù)期類(lèi)別相關(guān)聯(lián)的詞來(lái)校正與其他類(lèi)別太相似的訓(xùn)練數(shù)據(jù)文本樣本;
圖4是根據(jù)本發(fā)明實(shí)施例的用于使用訓(xùn)練數(shù)據(jù)來(lái)執(zhí)行文本分類(lèi)的方法的框圖/流程圖,該訓(xùn)練數(shù)據(jù)是在執(zhí)行訓(xùn)練之前通過(guò)驗(yàn)證和校正訓(xùn)練數(shù)據(jù)而手動(dòng)導(dǎo)出的,用以確保經(jīng)訓(xùn)練的分類(lèi)模型正確地分類(lèi)輸入文本;
圖5是根據(jù)本發(fā)明實(shí)施例的用于使用訓(xùn)練數(shù)據(jù)來(lái)執(zhí)行文本分類(lèi)系統(tǒng)的框圖,該訓(xùn)練數(shù)據(jù)是在執(zhí)行訓(xùn)練之前驗(yàn)證和校正訓(xùn)練數(shù)據(jù)而手動(dòng)導(dǎo)出的,用以確保經(jīng)訓(xùn)練的分類(lèi)模型正確地分類(lèi)輸入文本;以及
圖6是根據(jù)本發(fā)明實(shí)施例的示例性處理系統(tǒng)的框圖。
具體實(shí)施方式
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于國(guó)際商業(yè)機(jī)器公司,未經(jīng)國(guó)際商業(yè)機(jī)器公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910675375.0/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 驗(yàn)證系統(tǒng)、驗(yàn)證服務(wù)器、驗(yàn)證方法、驗(yàn)證程序、終端、驗(yàn)證請(qǐng)求方法、驗(yàn)證請(qǐng)求程序和存儲(chǔ)媒體
- 驗(yàn)證目標(biāo)系統(tǒng)的驗(yàn)證系統(tǒng)及其驗(yàn)證方法
- 驗(yàn)證設(shè)備、驗(yàn)證方法和驗(yàn)證程序
- 驗(yàn)證裝置、驗(yàn)證系統(tǒng)以及驗(yàn)證方法
- 驗(yàn)證方法、驗(yàn)證系統(tǒng)、驗(yàn)證設(shè)備及其程序
- 驗(yàn)證方法、用于驗(yàn)證的系統(tǒng)、驗(yàn)證碼系統(tǒng)以及驗(yàn)證裝置
- 圖片驗(yàn)證碼驗(yàn)證方法和圖片驗(yàn)證碼驗(yàn)證裝置
- 驗(yàn)證裝置、驗(yàn)證程序和驗(yàn)證方法
- 驗(yàn)證裝置、驗(yàn)證方法及驗(yàn)證程序
- 跨多個(gè)驗(yàn)證域的驗(yàn)證系統(tǒng)、驗(yàn)證方法、驗(yàn)證設(shè)備
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





