[發明專利]文本訓練數據處理方法、裝置及存儲介質在審
| 申請號: | 202010115489.2 | 申請日: | 2020-02-25 |
| 公開(公告)號: | CN111382268A | 公開(公告)日: | 2020-07-07 |
| 發明(設計)人: | 韓佳乘;齊保元;孟二利 | 申請(專利權)人: | 北京小米松果電子有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/216;G06F40/289;G06K9/62 |
| 代理公司: | 北京鉦霖知識產權代理有限公司 11722 | 代理人: | 李英艷;李志新 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 訓練 數據處理 方法 裝置 存儲 介質 | ||
1.一種文本訓練數據處理方法,其特征在于,包括:
將第一文本訓練數據作為分布式多用戶能力搜索引擎的查詢內容進行相似內容查詢,得到預設數量的第二文本訓練數據,所述分布式多用戶能力搜索引擎中存儲有多條文本訓練數據,且所述第一文本訓練數據為所述多條文本訓練數據中的一條;
針對所述預設數量的第二文本訓練數據中每一第二文本訓練數據,確定第二文本訓練數據與所述第一文本訓練數據的相似度值;
依據所述相似度值以及相似度閾值,篩選與所述第一文本訓練數據重復的文本訓練數據。
2.根據權利要求1所述的訓練數據處理方法,其特征在于,所述確定第二文本訓練數據與所述第一文本訓練數據的相似度值,包括:
對所述第一文本訓練數據進行分詞,并依據分詞后的詞向量構建第一詞頻矩陣;
對所述第二文本訓練數據進行分詞,并依據分詞后的詞向量構建第二詞頻矩陣;
分別提取所述第一詞頻矩陣和所述第二詞頻矩陣中的詞頻逆文本頻率特征向量,并確定提取得到的詞頻逆文本頻率特征向量的余弦距離;
將所述余弦距離作為所述第二文本訓練數據與所述第一文本訓練數據的相似度值。
3.根據權利要求1或2所述的訓練數據處理方法,其特征在于,依據所述相似度值以及相似度閾值,篩選與所述第一文本訓練數據重復的文本訓練數據,包括:
將所述相似度值大于相似度閾值的第二文本訓練數據,確定為與所述第一文本訓練數據重復的文本訓練數據;
將所述相似度值小于相似度閾值的第二文本訓練數據,確定為與所述第一文本訓練數據不重復的文本訓練數據。
4.根據權利要求3所述的訓練數據處理方法,其特征在于,所述方法還包括:
標記與所述第一文本訓練數據重復的文本訓練數據,以及標記與所述第一文本訓練數據不重復的文本訓練數據。
5.根據權利要求1或4所述的文本信息處理方法,其特征在于,所述方法還包括:
以預設數據格式存儲多條文本訓練數據;
所述預設數據格式中包括數據內容、聲稱數據標簽、系統生成數據標簽,以及重復文本標志位;
所述聲稱數據標簽包括聲稱的一級類別標簽和聲稱的二級類別標簽,所述系統生成標簽包括系統生成的一級類別標簽和系統生成的二級類別標簽。
6.根據權利要求5所述的文本訓練數據處理方法,其特征在于,所述方法還包括:
獲取文本訓練數據的聲稱數據標簽和系統生成數據標簽;
校驗聲稱的一級類別標簽與系統生成的一級類別標簽的一致性,以及校驗聲稱的二級類別標簽與系統生成的二級類別標簽的一致性。
7.根據權利要求6所述的文本訓練數據處理方法,其特征在于,所述方法還包括:
根據聲稱的一級類別標簽與系統生成的一級類別標簽的一致性校驗結果,標記用于表征一級類別標簽相同與否的標志位;
根據聲稱的二級類別標簽與系統生成的二級類別標簽的一致性校驗結果,標記用于表征一級類別標簽相同與否的標志位。
8.一種文本訓練數據處理裝置,其特征在于,包括:
查詢單元,被配置為將第一文本訓練數據作為分布式多用戶能力搜索引擎的查詢內容進行相似內容查詢,得到預設數量的第二文本訓練數據,所述分布式多用戶能力搜索引擎中存儲有多條文本訓練數據,且所述第一文本訓練數據為所述多條文本訓練數據中的一條;
確定單元,被配置為針對所述預設數量的第二文本訓練數據中每一第二文本訓練數據,確定第二文本訓練數據與所述第一文本訓練數據的相似度值;
篩選單元,被配置為依據所述相似度值以及相似度閾值,篩選與所述第一文本訓練數據重復的文本訓練數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京小米松果電子有限公司,未經北京小米松果電子有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010115489.2/1.html,轉載請聲明來源鉆瓜專利網。





