[發明專利]文本處理方法、裝置及其智能電子設備有效
| 申請號: | 201910825661.0 | 申請日: | 2019-09-03 |
| 公開(公告)號: | CN110532393B | 公開(公告)日: | 2023-09-26 |
| 發明(設計)人: | 繆暢宇 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/332;G06F16/33;G06N20/00 |
| 代理公司: | 北京市柳沈律師事務所 11105 | 代理人: | 王娟 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 處理 方法 裝置 及其 智能 電子設備 | ||
公開了一種基于人工智能的文本處理方法、裝置及其智能電子設備。該文本處理方法包括:構建給定文本的候選樣本集,所述候選樣本集中的每個候選樣本包括所述給定文本和候選匹配文本;對于每個候選樣本,提取所述候選匹配文本的關鍵詞集;以及基于所述候選匹配文本的關鍵詞集,從所述候選樣本集中提取出目標負樣本集。
技術領域
本發明涉及文本處理領域,更具體地涉及一種基于人工智能的文本處理方法、裝置及其智能電子設備。
背景技術
基于神經網絡的文本匹配技術是隨著機器學習技術的發展而新興起來的技術,其被廣泛應用于智能搜索、智能查詢、智能推薦、智能對話、智能問答等系統。目前,文本匹配模型往往是基于較易分辨的負樣本進行訓練的,這導致模型并不能受到高質量的訓練,一旦遇到稍微難分辨的文本,將喪失分辨能力。另一方面,為了提供更具有迷惑性的高質量負樣本,則需要對大量樣本進行人工篩選,這將大大增加人工成本。因此,在模型訓練階段,需要一種新穎且有效的負樣本構建策略,其既能獲取足夠多的高質量訓練負樣本,又能實現獲取流程的全自動化,不需要任何人工干預,從而使得同樣結構的文本匹配模型在新的負樣本訓練集上學習出來的結果,要遠遠優于在現有負樣本訓練集上學習出來的結果。
發明內容
本發明的實施例提供了一種基于人工智能的文本處理方法,包括:構建給定文本的候選樣本集,所述候選樣本集中的每個候選樣本包括所述給定文本和候選匹配文本;對于每個候選樣本,提取所述候選匹配文本的關鍵詞集;以及基于所述候選匹配文本的關鍵詞集,從所述候選樣本集中提取出目標負樣本集。
根據本發明的實施例,所述基于所述候選匹配文本的關鍵詞集從所述候選樣本集中提取出目標負樣本集包括:基于所述給定文本的關鍵詞集和所述候選匹配文本的關鍵詞集的關聯程度來提取目標負樣本集。
根據本發明的實施例,所述給定文本的關鍵詞集和所述候選匹配文本的關鍵詞集的關聯程度為所述給定文本的關鍵詞集和所述候選匹配文本的關鍵詞集中關鍵詞的覆蓋率:
R=Ncom/Ntotal,
其中,R為關鍵詞的覆蓋率,Ncom為所述給定文本的關鍵詞集和所述候選匹配文本的關鍵詞集中的公共關鍵詞的數量,Ntotal為所述給定文本的關鍵詞集和所述候選匹配文本的關鍵詞集中的所有關鍵詞的數量;其中,從所述候選樣本集中提取出關鍵詞的覆蓋率R大于第一閾值且小于第二閾值的候選樣本,作為所述目標負樣本集中的目標負樣本。
根據本發明的實施例,所述基于所述候選匹配文本的關鍵詞集從所述候選樣本集中提取出目標負樣本集包括:獲取所述給定文本的目標匹配文本;基于所述給定文本的目標匹配文本的關鍵詞集和所述候選匹配文本的關鍵詞集的關聯程度來提取目標負樣本集。
根據本發明的實施例,所述給定文本的目標匹配文本的關鍵詞集和所述候選匹配文本的關鍵詞集的關聯程度為所述給定文本的目標匹配文本的關鍵詞集和所述候選匹配文本的關鍵詞集中關鍵詞的覆蓋率:
R=Ncom/Ntotal,
其中,R為關鍵詞的覆蓋率,Ncom為所述給定文本的目標匹配文本的關鍵詞集和所述候選匹配文本的關鍵詞集中的公共關鍵詞的數量,Ntotal為所述給定文本的目標匹配文本的關鍵詞集和所述候選匹配文本的關鍵詞集中的所有關鍵詞的數量;其中,從所述候選樣本集中提取出關鍵詞的覆蓋率R大于第一閾值且小于第二閾值的候選樣本,作為所述目標負樣本集中的目標負樣本。
根據本發明的實施例,所述方法還包括:對所述目標負樣本集中的每個目標負樣本進行預測;以及基于預測結果從所述目標負樣本集中提取出第二目標負樣本集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910825661.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于卷積神經網絡短文本分類方法
- 下一篇:訂單備注文本的處理方法及系統





