[發明專利]文本處理方法及裝置有效
| 申請號: | 202110556481.4 | 申請日: | 2021-05-21 |
| 公開(公告)號: | CN113032531B | 公開(公告)日: | 2021-11-30 |
| 發明(設計)人: | 白靜;李長亮;李小龍 | 申請(專利權)人: | 北京金山數字娛樂科技有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/332;G06F40/258;G06F40/30;G06K9/62 |
| 代理公司: | 北京智信禾專利代理有限公司 11637 | 代理人: | 吳肖肖 |
| 地址: | 100085 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 處理 方法 裝置 | ||
1.一種文本處理方法,其特征在于,包括:
獲取問題文本;
將所述問題文本輸入至問答模塊進行處理,獲得所述問答模塊輸出的候選答案,所述問答模塊為針對所述問題文本進行初步答復的問答系統,所述問答系統是根據實際應用場景選擇的;
根據所述候選答案在所述問答模塊對應的文本庫中提取包含所述候選答案的目標文本;
在所述目標文本中提取包含所述候選答案的候選語句;
提取所述目標文本的文本特征;將所述文本特征、所述候選語句以及所述問題文本進行拼接,獲得所述候選答案對應的所述候選答案特征;
將所述候選答案特征輸入文本處理模塊進行處理,通過所述文本處理模塊從所述候選答案中篩選出與所述問題文本相關程度較高的候選答案,作為所述問題文本對應的目標答案文本。
2.根據權利要求1所述的文本處理方法,其特征在于,所述在所述目標文本中提取包含所述候選答案的候選語句,包括:
確定所述候選答案在所述目標文本中的答案位置;
基于所述答案位置在所述目標文本中提取包含所述候選答案的所述候選語句。
3.根據權利要求2所述的文本處理方法,其特征在于,所述確定所述候選答案在所述目標文本中的答案位置,包括:
對所述候選答案進行解析獲得所述候選答案對應的屬性信息;
根據所述屬性信息在所述目標文本中進行位置定位,根據定位結果確定所述候選答案在所述目標文本中的所述答案位置。
4.根據權利要求2所述的文本處理方法,其特征在于,所述基于所述答案位置在所述目標文本中提取包含所述候選答案的所述候選語句,包括:
基于所述答案位置在所述目標文本中識別第一段落符和第二段落符,并根據所述第一段落符和所述第二段落符提取包含所述候選答案的所述候選語句;
或者,
在所述目標文本中提取所述候選答案前后設定字數的第一段落文本和第二段落文本,根據所述第一段落文本、所述候選答案以及所述第二段落文本生成所述候選語句。
5.根據權利要求1所述的文本處理方法,其特征在于,所述將所述候選答案特征輸入文本處理模塊進行處理,通過所述文本處理模塊從所述候選答案中篩選出與所述問題文本相關程度較高的候選答案,作為所述問題文本對應的目標答案文本,包括:
將所述候選答案特征輸入至文本處理模塊,通過所述文本處理模塊中的深度語言模型進行編碼處理,獲得編碼特征;
將所述編碼特征輸入至所述文本處理模塊中的分類網絡進行打分處理,獲得所述編碼特征對應的特征分值;
根據所述特征分值確定所述候選答案對應的答案分值,并基于所述答案分值從所述候選答案中篩選出所述目標答案文本;
通過所述文本處理模塊輸出所述目標答案文本。
6.根據權利要求5所述的文本處理方法,其特征在于,還包括:
獲取初始語言模型以及樣本問題文本;
確定所述樣本問題文本對應的樣本答案文本,并基于所述樣本問題文本和所述樣本答案文本構建樣本對;
基于所述樣本對對所述初始語言模型進行訓練,直至所述初始語言模型滿足訓練停止條件,獲得所述深度語言模型。
7.根據權利要求5所述的文本處理方法,其特征在于,所述基于所述答案分值從所述候選答案中篩選出所述目標答案文本,包括:
根據所述答案分值對所述候選答案中的各個子候選答案進行排序,獲得候選答案序列;
按照預設的篩選規則在所述候選答案序列中篩選出所述目標答案文本。
8.根據權利要求1所述的文本處理方法,其特征在于,所述文本特征包括下述至少一項:
文本標題、文本關鍵詞、文本語義信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京金山數字娛樂科技有限公司,未經北京金山數字娛樂科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110556481.4/1.html,轉載請聲明來源鉆瓜專利網。





