[發(fā)明專利]文本訓(xùn)練數(shù)據(jù)處理方法、裝置及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202010115489.2 | 申請日: | 2020-02-25 |
| 公開(公告)號: | CN111382268A | 公開(公告)日: | 2020-07-07 |
| 發(fā)明(設(shè)計)人: | 韓佳乘;齊保元;孟二利 | 申請(專利權(quán))人: | 北京小米松果電子有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/216;G06F40/289;G06K9/62 |
| 代理公司: | 北京鉦霖知識產(chǎn)權(quán)代理有限公司 11722 | 代理人: | 李英艷;李志新 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本 訓(xùn)練 數(shù)據(jù)處理 方法 裝置 存儲 介質(zhì) | ||
本公開是關(guān)于一種文本訓(xùn)練數(shù)據(jù)處理方法、裝置及存儲介質(zhì)。文本訓(xùn)練數(shù)據(jù)處理方法包括:將第一文本訓(xùn)練數(shù)據(jù)作為分布式多用戶能力搜索引擎的查詢內(nèi)容進行相似內(nèi)容查詢,得到預(yù)設(shè)數(shù)量的第二文本訓(xùn)練數(shù)據(jù),分布式多用戶能力搜索引擎中存儲有多條文本訓(xùn)練數(shù)據(jù),且第一文本訓(xùn)練數(shù)據(jù)為多條文本訓(xùn)練數(shù)據(jù)中的一條;針對預(yù)設(shè)數(shù)量的第二文本訓(xùn)練數(shù)據(jù)中每一第二文本訓(xùn)練數(shù)據(jù),確定第二文本訓(xùn)練數(shù)據(jù)與第一文本訓(xùn)練數(shù)據(jù)的相似度值;依據(jù)相似度值以及相似度閾值,篩選與第一文本訓(xùn)練數(shù)據(jù)重復(fù)的文本訓(xùn)練數(shù)據(jù)。通過本公開,在文本訓(xùn)練數(shù)據(jù)中篩選重復(fù)的文本訓(xùn)練數(shù)據(jù)時,可提高篩選的效率。
技術(shù)領(lǐng)域
本公開涉及自然語言處理領(lǐng)域,尤其涉及文本訓(xùn)練數(shù)據(jù)處理方法、裝置及存儲介質(zhì)。
背景技術(shù)
文本分類(Text Classification)任務(wù)是計算機根據(jù)文本內(nèi)容,自動劃分到規(guī)定的分類體系中某一類的自然語言處理任務(wù)。隨著深度學(xué)習(xí)(Deep learning)技術(shù)的發(fā)展,文本分類任務(wù)使用深度學(xué)習(xí)模型自動提取特征,可以達到更加準確的分類效果。
但是,深度學(xué)習(xí)的文本分類方法是基于數(shù)據(jù)驅(qū)動的、有監(jiān)督的學(xué)習(xí)方法,訓(xùn)練深度學(xué)習(xí)模型需要大量的標注文本作為文本訓(xùn)練數(shù)據(jù)。并且,文本訓(xùn)練數(shù)據(jù)的數(shù)量和質(zhì)量直接影響模型的訓(xùn)練結(jié)果,文本訓(xùn)練數(shù)據(jù)的質(zhì)量越好,模型學(xué)習(xí)到的文本特征越充分,文本分類的效果越好。
通常,文本訓(xùn)練數(shù)據(jù)中可能包含重復(fù)的文本訓(xùn)練數(shù)據(jù),以及文本訓(xùn)練數(shù)據(jù)的預(yù)設(shè)的標簽與系統(tǒng)生成的標簽存在不一致等問題,嚴重影響文本訓(xùn)練數(shù)據(jù)的質(zhì)量。
由于深度學(xué)習(xí)模型中文本訓(xùn)練數(shù)據(jù)的規(guī)模一般很大,通過對文本訓(xùn)練數(shù)據(jù)中任意兩條文本訓(xùn)練數(shù)據(jù)進行比較,查找重復(fù)的文本訓(xùn)練數(shù)據(jù)以及校驗文本訓(xùn)練數(shù)據(jù)預(yù)設(shè)的標簽與系統(tǒng)生成標簽之間的一致性時,非常耗時,效率低下。
發(fā)明內(nèi)容
為克服相關(guān)技術(shù)中存在的問題,本公開提供一種文本訓(xùn)練數(shù)據(jù)處理方法、裝置及存儲介質(zhì)。
根據(jù)本公開實施例的第一方面,提供一種文本訓(xùn)練數(shù)據(jù)處理方法,文本訓(xùn)練數(shù)據(jù)處理方法,包括:將第一文本訓(xùn)練數(shù)據(jù)作為分布式多用戶能力搜索引擎的查詢內(nèi)容進行相似內(nèi)容查詢,得到預(yù)設(shè)數(shù)量的第二文本訓(xùn)練數(shù)據(jù),分布式多用戶能力搜索引擎中存儲有多條文本訓(xùn)練數(shù)據(jù),且第一文本訓(xùn)練數(shù)據(jù)為多條文本訓(xùn)練數(shù)據(jù)中的一條;針對預(yù)設(shè)數(shù)量的第二文本訓(xùn)練數(shù)據(jù)中每一第二文本訓(xùn)練數(shù)據(jù),確定第二文本訓(xùn)練數(shù)據(jù)與第一文本訓(xùn)練數(shù)據(jù)的相似度值;依據(jù)相似度值以及相似度閾值,篩選與第一文本訓(xùn)練數(shù)據(jù)重復(fù)的文本訓(xùn)練數(shù)據(jù)。
在一示例中,確定第二文本訓(xùn)練數(shù)據(jù)與第一文本訓(xùn)練數(shù)據(jù)的相似度值,包括:對第一文本訓(xùn)練數(shù)據(jù)進行分詞,并依據(jù)分詞后的詞向量構(gòu)建第一詞頻矩陣;對第二文本訓(xùn)練數(shù)據(jù)進行分詞,并依據(jù)分詞后的詞向量構(gòu)建第二詞頻矩陣;分別提取第一詞頻矩陣和第二詞頻矩陣中的詞頻逆文本頻率特征向量,并確定提取得到的詞頻逆文本頻率特征向量的余弦距離;將余弦距離作為第二文本訓(xùn)練數(shù)據(jù)與第一文本訓(xùn)練數(shù)據(jù)的相似度值。
在一示例中,依據(jù)相似度值以及相似度閾值,篩選與第一文本訓(xùn)練數(shù)據(jù)重復(fù)的文本訓(xùn)練數(shù)據(jù),包括:將相似度值大于相似度閾值的第二文本訓(xùn)練數(shù)據(jù),確定為與第一文本訓(xùn)練數(shù)據(jù)重復(fù)的文本訓(xùn)練數(shù)據(jù);將相似度值小于相似度閾值的第二文本訓(xùn)練數(shù)據(jù),確定為與第一文本訓(xùn)練數(shù)據(jù)不重復(fù)的文本訓(xùn)練數(shù)據(jù)。
在一示例中,文本訓(xùn)練數(shù)據(jù)處理方法還包括:標記與第一文本訓(xùn)練數(shù)據(jù)重復(fù)的文本訓(xùn)練數(shù)據(jù),以及標記與第一文本訓(xùn)練數(shù)據(jù)不重復(fù)的文本訓(xùn)練數(shù)據(jù)。
在一示例中,文本訓(xùn)練數(shù)據(jù)處理方法還包括:以預(yù)設(shè)數(shù)據(jù)格式存儲多條文本訓(xùn)練數(shù)據(jù);預(yù)設(shè)數(shù)據(jù)格式中包括數(shù)據(jù)內(nèi)容、聲稱數(shù)據(jù)標簽、系統(tǒng)生成數(shù)據(jù)標簽,以及重復(fù)文本標志位;聲稱數(shù)據(jù)標簽包括聲稱的一級類別標簽和聲稱的二級類別標簽,系統(tǒng)生成標簽包括系統(tǒng)生成的一級類別標簽和系統(tǒng)生成的二級類別標簽。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京小米松果電子有限公司,未經(jīng)北京小米松果電子有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010115489.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)處理設(shè)備,數(shù)據(jù)處理方法,和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理電路、數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法、數(shù)據(jù)處理控制方法
- 數(shù)據(jù)處理設(shè)備、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及計算機可讀取的記錄介質(zhì)
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序





