[發明專利]一種訓練數據的方法、裝置及存儲介質有效
| 申請號: | 201711269292.9 | 申請日: | 2017-12-05 |
| 公開(公告)號: | CN110019648B | 公開(公告)日: | 2021-02-02 |
| 發明(設計)人: | 李瀟;鄭孫聰 | 申請(專利權)人: | 深圳市騰訊計算機系統有限公司 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/35;G06F40/295;G06N3/04;G06N3/08;G06K9/62 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙) 44285 | 代理人: | 王仲凱 |
| 地址: | 518000 廣東省深圳市南*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 訓練 數據 方法 裝置 存儲 介質 | ||
一種訓練數據的方法、裝置及存儲介質,該方法包括獲取待處理的語料集合;從語料集合中提取實體集合,從實體集合中提取候選上位詞集合;將實體集合中的實體分別與候選上位詞集合中的各上位詞組合,得到候選對集合,候選對集合包括多個候選對,候選對是指具備關聯關系的實體與上位詞的組合;將候選對、每個與候選對關聯的語句分別構造為一份預測數據,以及對預測數據中與候選對關聯的語句進行泛化處理;對各候選對所關聯的語句分別進行分詞處理,得到詞語集合;對詞語集合中的各詞語輸入泛化處理層進行轉換,得到向量集合;根據預測數據和長短期記憶人工神經網絡LSTM對所述向量集合進行訓練和預測。通過采用該方案,能夠提高訓練數據的效率。
技術領域
本申請涉及大數據處理技術領域,尤其涉及一種訓練數據的方法、裝置及存儲介質。
背景技術
在時間遞歸神經網絡技術領域,一般采用長短期記憶人工神經網絡(英文全稱:long-short term memory,英文簡稱:LSTM)處理、預測時間序列中間隔長、延遲長的重要事件。在使用LSTM預測之前,需要從語料集合中挖掘上位詞,并將問題轉換成分類問題,即給定一個候選實體-上位詞對,預測該候選實體-上位詞對是不是真正的實體-上位詞對。在預測方法上,一般都是分詞處理、提取特征,然后使用傳統分類器來對候選實體-上位詞進行分類。但這種方式對領域知識要求較高,且最終分類的的結果可能不具有泛化性,其所能預測的范圍較小。
目前主要基于深度學習的方法對候選實體-上位詞進行分類,自動從語料集合中提取特征和生成批量的訓練數據,基于批量的訓練數據進行預測,能夠提高分類的性能,但是由于深度網絡很復雜,外加命名實體數量的增加,需要生成更多的訓練數據,生成大量的訓練數據所耗費時間較長,并且效率較低。
發明內容
本申請提供了一種訓練數據的方法、裝置及存儲介質,能夠解決現有技術中訓練數據的效率較低的問題。
本申請第一方面提供一種訓練數據的方法,所述方法包括:
獲取待處理的語料集合;
從所述語料集合中提取實體集合,所述實體集合包括多個命名的實體;
從所述實體集合中提取候選上位詞集合;
將所述實體集合中的實體分別與所述候選上位詞集合中的各上位詞組合,得到候選對集合,所述候選對集合包括多個候選對,所述候選對是指具備關聯關系的實體與上位詞的組合;
將候選對、每個與候選對關聯的語句分別構造為一份預測數據,以及對預測數據中與候選對關聯的語句進行泛化處理;
對各候選對所關聯的語句分別進行分詞處理,得到詞語集合;
對所述詞語集合中的各詞語輸入泛化處理層進行轉換,得到向量集合;
根據所述預測數據和長短期記憶人工神經網絡LSTM對所述向量集合進行訓練和預測。
本申請第二方面提供一種用于訓練數據的裝置,具有實現對應于上述第一方面提供的訓練數據的方法的功能。所述功能可以通過硬件實現,也可以通過硬件執行相應的軟件實現。硬件或軟件包括一個或多個與上述功能相對應的模塊,所述模塊可以是軟件和/或硬件。
一種可能的設計中,所述裝置包括:
獲取模塊,用于獲取待處理的語料集合;
處理模塊,用于從所述語料集合中提取實體集合,所述實體集合包括多個命名的實體;
從所述實體集合中提取候選上位詞集合;
將所述實體集合中的實體分別與所述候選上位詞集合中的各上位詞組合,得到候選對集合,所述候選對集合包括多個候選對,所述候選對是指具備關聯關系的實體與上位詞的組合;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市騰訊計算機系統有限公司,未經深圳市騰訊計算機系統有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711269292.9/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





