[發明專利]文本質量評估模型的訓練方法和確定文本質量的方法在審
| 申請號: | 202110787492.3 | 申請日: | 2021-07-12 |
| 公開(公告)號: | CN113392218A | 公開(公告)日: | 2021-09-14 |
| 發明(設計)人: | 王恒;田振雷;于天寶 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/30;G06F16/335;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 中科專利商標代理有限責任公司 11021 | 代理人: | 呂朝蕙 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 質量 評估 模型 訓練 方法 確定 | ||
1.一種文本質量評估模型的訓練方法,包括:
基于針對文本的指標數據,確定多個文本中滿足負樣本條件的第一文本和滿足正樣本條件的第二文本;
針對所述第一文本和所述第二文本中的任一文本,基于所述任一文本滿足的條件向所述任一文本添加標簽,所述標簽指示了所述任一文本的類別,所述類別包括針對負樣本的低質量類別和針對正樣本的非低質量類別;以及
將添加了所述標簽的第一文本和添加了所述標簽的第二文本構成訓練集,對所述文本質量評估模型進行訓練。
2.根據權利要求1所述的方法,其中,所述文本質量評估模型包括語義表示網絡;所述方法還包括在對所述文本質量評估模型進行訓練之前:
基于所述多個文本對所述語義表示網絡進行訓練,得到預訓練的語義表示網絡;以及
基于所述預訓練的語義表示網絡,獲得所述文本質量評估模型。
3.根據權利要求1所述的方法,其中,確定多個文本中滿足負樣本條件的第一文本和滿足正樣本條件的第二文本包括:
基于所述針對文本的指標數據,確定所述多個文本中每個文本的滿意度;
從所述多個文本中選擇滿意度小于第一閾值的文本,得到所述第一文本;以及
從所述多個文本中選擇滿意度大于等于第二閾值的文本,得到所述第二文本,
其中,所述第一閾值小于所述第二閾值。
4.根據權利要求3所述的方法,其中,針對所述每個文本的指標數據包括至少兩個指標數據;確定所述多個文本中每個文本的滿意度包括:
基于針對所述每個文本的指標數據,確定預定滿意度函數的取值;以及
將所述預定滿意度函數的取值映射至預定取值范圍內,得到所述每個文本的滿意度。
5.根據權利要求1~4中任一項所述的方法,其中,針對文本的指標數據包括文本發布者的指標數據;確定多個文本中滿足負樣本條件的第一文本包括:
從所述多個文本中選擇文本發布者的指標數據大于預定指標閾值的文本,得到所述第一文本,
其中,所述文本發布者的指標數據包括以下至少之一:文本發布者發布的文本屬于采集文本的比例、文本發布者發布文本的重復率。
6.根據權利要求1~4中任一項所述的方法,其中,所述針對文本的指標數據包括文本的展示屬性;確定多個文本中滿足預定負樣本條件的第一文本包括:
從所述多個文本中選擇展示屬性為折疊展示的文本,獲得所述第一文本。
7.根據權利要求6所述的方法,其中,所述針對文本的指標數據還包括針對文本的行為數據和文本發布者的指標數據;所述從所述多個文本中選擇展示屬性為折疊展示的文本,獲得所述第一文本包括:
將從所述多個文本中選擇的展示屬性為折疊展示的文本作為候選文本;以及
基于所述針對文本的行為數據和所述文本發布者的指標數據中的至少之一,從所述候選文本中剔除目標文本,得到所述第一文本。
8.根據權利要求1所述的方法,還包括在對所述文本質量評估模型進行訓練之后:
以目標文本作為訓練樣本,對訓練得到的文本質量評估模型進行二次訓練,
其中,所述目標文本具有指示文本的實際類別的人工標注標簽。
9.一種確定文本質量的方法,包括:
以待處理文本作為文本質量評估模型的輸入,得到所述文本質量評估模型的輸出數據;以及
基于所述輸出數據,確定所述待處理文本的的類別,
其中,所述文本質量評估模型是采用權利要求1~8中任一項所述的方法訓練得到的。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110787492.3/1.html,轉載請聲明來源鉆瓜專利網。





