[發明專利]語料處理方法和裝置、存儲介質在審
| 申請號: | 202210302051.4 | 申請日: | 2022-03-25 |
| 公開(公告)號: | CN114756649A | 公開(公告)日: | 2022-07-15 |
| 發明(設計)人: | 雷麗莉 | 申請(專利權)人: | 青島海爾科技有限公司;海爾智家股份有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/36;G06F40/242;G06F40/289;G06F40/30 |
| 代理公司: | 北京康信知識產權代理有限責任公司 11240 | 代理人: | 周婷婷 |
| 地址: | 266101 山東省*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語料 處理 方法 裝置 存儲 介質 | ||
本發明公開了一種語料處理方法和裝置、存儲介質。其中,該方法包括:對樣本語料集合中的樣本語料進行分詞,得到樣本字段;對樣本字段進行義位拆分,得到至少一個樣本義原字;根據樣本字段以及樣本字段包含的樣本義原字確定樣本字段對應的樣本義原集合,其中,樣本義原集合包括至少一個樣本義原,每個樣本義原均包括義原標識和義原特征,義原特征用于指示樣本字段或樣本義原字與義原標識對應的特征;根據樣本字段和樣本字段對應的樣本義原集合,確定目標義原字典。本發明解決了基于詞義知識庫進行語料標注準確性低的技術問題。
技術領域
本發明涉及語料處理領域,具體而言,涉及一種語料處理方法和裝置、存儲介質。
背景技術
深度學習和機器學習均需要大量的標注數據進行模型訓練,而現有的自動標注技術是通過鼠標選中關鍵字點擊預設標簽,從而將文本中的關鍵字打上相應標簽。而現有標簽通常是基于現有的語義知識庫確定出的標簽,而現有的語義知識庫通常是義原和動態角色的組合去描述詞語的。
但現有的語義知識庫并沒有考慮到詞語在知識庫中的上下位關系,也就是并沒有在垂直領域細分以構建知識庫,只是考慮詞語本體的語義,無法準確描述詞語在垂直領域的語義。因此,在現有語義知識庫只有粗顆粒度的本體語義的情況下,標簽的準確度也有限,那么語料打標的精確度也就有限,無法實現垂直領域的精確打標。
針對上述的問題,目前尚未提出有效的解決方案。
發明內容
本發明實施例提供了一種語料處理方法和裝置、存儲介質,以至少解決基于詞義知識庫進行語料標注準確性低的技術問題。
根據本發明實施例的一個方面,提供了一種語料處理方法,包括:對樣本語料集合中的樣本語料進行分詞,得到樣本字段;對上述樣本字段進行義位拆分,得到至少一個樣本義原字;根據上述樣本字段以及上述樣本字段包含的上述樣本義原字確定上述樣本字段對應的樣本義原集合,其中,上述樣本義原集合包括至少一個樣本義原,每個上述樣本義原均包括義原標識和義原特征,上述義原特征用于指示上述樣本字段或上述樣本義原字與上述義原標識對應的特征;根據上述樣本字段和上述樣本字段對應的上述樣本義原集合,確定目標義原字典。
根據本發明實施例的另一方面,還提供了一種語料處理裝置,包括:分詞單元,用于對樣本語料集合中的樣本語料進行分詞,得到樣本字段;拆分單元,用于對上述樣本字段進行義位拆分,得到至少一個樣本義原字;義原單元,用于根據上述樣本字段以及上述樣本字段包含的上述樣本義原字確定上述樣本字段對應的樣本義原集合,其中,上述樣本義原集合包括至少一個樣本義原,每個上述樣本義原均包括義原標識和義原特征,上述義原特征用于指示上述樣本字段或上述樣本義原字與上述義原標識對應的特征;確定單元,用于根據上述樣本字段和上述樣本字段對應的上述樣本義原集合,確定目標義原字典。
根據本發明實施例的又一方面,還提供了一種計算機可讀的存儲介質,該計算機可讀的存儲介質中存儲有計算機程序,其中,該計算機程序被設置為運行時執行上述語料處理方法。
根據本發明實施例的又一方面,還提供了一種電子設備,包括存儲器和處理器,上述存儲器中存儲有計算機程序,上述處理器被設置為通過所述計算機程序執行上述的語料處理方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于青島海爾科技有限公司;海爾智家股份有限公司,未經青島海爾科技有限公司;海爾智家股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210302051.4/2.html,轉載請聲明來源鉆瓜專利網。





