[發明專利]一種語料庫生成方法、裝置、設備和計算機存儲介質有效

申請號：	201710735803.5	申請日：	2017-08-24
公開（公告）號：	CN110019827B	公開（公告）日：	2023-03-14
發明（設計）人：	王丹丹;趙林;郎兵	申請（專利權）人：	騰訊科技（北京）有限公司
主分類號：	G06F16/36	分類號：	G06F16/36;G06F16/35
代理公司：	北京派特恩知識產權代理有限公司 11270	代理人：	張穎玲;王花麗
地址：	100080 北京市海淀區海淀***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種語料庫生成方法裝置設備計算機存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明實施例公開了一種語料庫生成方法，所述方法包括：從待處理信息庫中確定第一媒體；其中，第一媒體為待處理信息庫中評分大于第一閾值的媒體；基于第一媒體和所述第一媒體對應的文本，生成第一種子語料；采用預設算法對待處理信息庫中的文本進行分類，并對得到的分類集合中的文本進行篩選，生成第二種子語料；所述第二種子語料中包括至少一個種子語料；基于所述第一種子語料和所述第二種子語料生成基準分類模型；基于所述第一種子語料和所述第二種子語料從所述待處理信息庫中獲取增量文本，并采用所述基準分類模型對所述增量文本進行篩選生成目標語料庫。本發明實施例同時還公開了一種語料庫生成裝置、設備和計算機存儲介質。

技術領域

本發明涉及計算機領域中的種子語料庫生成技術，尤其涉及一種語料庫生成方法、裝置、設備和計算機存儲介質。

背景技術

目前，預料庫中的數據都是具有分類的，但是在獲取這些具有分類的訓練數據的難度較大?，F有的獲取分類數據的實現方案主要包括以下三種方式：一種是通過抓取已有網站的帶有分類的數據；一種是通過對現有無分類數據進行人工標注；還有一種是通過關鍵詞在搜索引擎中搜索和抓取。

但是，現有的獲取分類數據的方案得到的分類數據的類別覆蓋不全質量參差不齊，并且分類數據的純度比較低，進而會影響得到的分類數據的準確率。

發明內容

為解決上述技術問題，本發明實施例期望提供一種語料庫生成方法、裝置、設備和計算機存儲介質，解決了現有的分類技術得到的分類數據類覆蓋不全的問題，擴展了分類數據的覆蓋范圍，提高了分類數據的質量和準確率；同時，保證了分類數據的純度。

本發明實施例的技術方案是這樣實現的：

第一方面，提供一種語料庫生成方法，所述方法包括：

從待處理信息庫中確定第一媒體；其中，所述第一媒體為所述待處理信息庫中評分大于第一閾值的媒體；

基于所述第一媒體和所述第一媒體對應的文本，生成第一種子語料；

采用預設算法對所述待處理信息庫中的文本進行分類，并對得到的分類集合中的文本進行篩選，生成第二種子語料；其中，所述第二種子語料中包括至少一個種子語料；